Testing and Monitoring AI Agents in Production

A complete guide to testing and monitoring AI agents in production environments. Covers evaluation frameworks, observability, drift detection, and incident response for OpenClaw deployments.

E
ECOSIRE Research and Development Team
|19 मार्च 202613 मिनट पढ़ें3.0k शब्द|

हमारी Performance & Scalability श्रृंखला का हिस्सा

पूरी गाइड पढ़ें

उत्पादन में एआई एजेंटों का परीक्षण और निगरानी

उत्पादन में एआई एजेंट को तैनात करना कार्यान्वयन का अंत नहीं है - यह एक परिचालन अनुशासन की शुरुआत है जो पारंपरिक सॉफ्टवेयर के लिए मौजूद नहीं है। पारंपरिक एप्लिकेशन निश्चित रूप से विफल हो जाते हैं: समान इनपुट दिए जाने पर, आपको वही (गलत) आउटपुट मिलता है। एआई एजेंट संभावित रूप से विफल हो जाते हैं: एक ही इनपुट 97% समय में सही आउटपुट देता है और 3% बार सूक्ष्म रूप से गलत आउटपुट देता है, और मॉडल अपडेट होने, इनपुट वितरण में बदलाव और व्यावसायिक नियम विकसित होने पर 3% परिवर्तन होता है।

यह मार्गदर्शिका OpenClaw कार्यान्वयन के लिए विशिष्ट पैटर्न के साथ, तैनाती से पहले AI एजेंटों के परीक्षण और उत्पादन में उनकी निरंतर निगरानी के लिए संपूर्ण परिचालन ढांचे को शामिल करती है।

मुख्य बातें

  • एआई एजेंट परीक्षण के लिए कार्यात्मक परीक्षण (सही आउटपुट) और व्यवहार परीक्षण (लगातार तर्क) दोनों की आवश्यकता होती है
  • जब मॉडल अपडेट होते हैं तो रिग्रेशन परीक्षण महत्वपूर्ण होता है - मान लें कि व्यवहार बदल जाएगा जब तक कि अन्यथा साबित न हो जाए
  • उत्पादन निगरानी को केवल उपलब्धता और विलंबता ही नहीं, बल्कि सटीकता मेट्रिक्स को भी ट्रैक करना चाहिए
  • टोकन उपयोग और लागत निगरानी अप्रत्याशित बिलिंग स्पाइक्स को रोकती है
  • एजेंट आउटपुट में विसंगति का पता लगाने से व्यावसायिक परिणामों को प्रभावित करने से पहले सटीकता में गिरावट आती है
  • मानव समीक्षा नमूनाकरण स्वचालित निगरानी को अंशांकित करने के लिए जमीनी सच्चाई प्रदान करता है
  • एआई एजेंटों के लिए घटना प्रतिक्रिया प्लेबुक पारंपरिक सॉफ्टवेयर घटनाओं से मौलिक रूप से भिन्न हैं
  • ए/बी परीक्षण ढांचा त्वरित परिवर्तनों और मॉडल उन्नयन के सुरक्षित मूल्यांकन को सक्षम बनाता है

एआई एजेंट परीक्षण अलग क्यों है

एआई एजेंटों के परीक्षण के लिए पारंपरिक सॉफ़्टवेयर के परीक्षण से मौलिक रूप से भिन्न मानसिकता की आवश्यकता होती है। पारंपरिक सॉफ़्टवेयर परीक्षण में, आप परीक्षण मामले लिखते हैं, इनपुट प्रदान करते हैं, और अपेक्षित मानों के विरुद्ध आउटपुट सत्यापित करते हैं। यदि परीक्षण लगातार उत्तीर्ण होता है, तो सॉफ्टवेयर सही है।

एआई एजेंट इस तरह से काम नहीं करते हैं। उनके आउटपुट संभाव्य हैं - वे सही, थोड़े अलग या पूरी तरह से गलत हो सकते हैं, और परिणामों की संभाव्यता वितरण मॉडल संस्करण, प्रदान किए गए संदर्भ और इनपुट के विशिष्ट वाक्यांश पर निर्भर करती है। तीन चुनौतियाँ पारंपरिक परीक्षण को अपर्याप्त बनाती हैं:

गैर-नियतिवाद: एक ही प्रॉम्प्ट को दो बार चलाने से अलग-अलग आउटपुट मिल सकते हैं। परीक्षणों को एक सीमा के भीतर आउटपुट गुणवत्ता का मूल्यांकन करना चाहिए, सटीक समानता का नहीं।

मॉडल संस्करण संवेदनशीलता: जब आपका एलएलएम प्रदाता एक नया मॉडल संस्करण जारी करता है, तो आपके एजेंट का व्यवहार ऐसे तरीकों से बदल सकता है जो तुरंत स्पष्ट नहीं होते हैं। एक मॉडल जो आपके कार्य पर 94% सटीक था, वह 96% तक सुधर सकता है या 91% तक ख़राब हो सकता है - आपको इसका पता लगाने के लिए तंत्र की आवश्यकता है।

संदर्भ निर्भरता: एजेंट का व्यवहार काफी हद तक दिए गए संदर्भ (पुनर्प्राप्त दस्तावेज़, बातचीत का इतिहास, सिस्टम निर्देश) पर निर्भर करता है। संदर्भ असेंबली में छोटे परिवर्तन आउटपुट गुणवत्ता को महत्वपूर्ण रूप से प्रभावित कर सकते हैं।


प्री-प्रोडक्शन टेस्टिंग फ्रेमवर्क

कौशल के लिए यूनिट परीक्षण

प्रत्येक ओपनक्लॉ कौशल में एक परीक्षण सूट होना चाहिए जो इनपुट के प्रतिनिधि नमूने के साथ उसके व्यवहार को मान्य करता है। ये परीक्षण मानक अभिकथन-बराबर परीक्षण नहीं हैं - वे एक मूल्यांकन ढांचे का उपयोग करते हैं जो आउटपुट गुणवत्ता का स्कोर करता है।

अनुबंध समीक्षा कौशल के लिए परीक्षण संरचना:

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

प्रत्येक परीक्षण के लिए मूल्यांकन मानदंड:

  • याद करें (क्या एजेंट को पता चला कि वहां क्या था?)
  • परिशुद्धता (क्या एजेंट ने केवल प्रासंगिक वस्तुओं को चिह्नित किया था?)
  • जोखिम मूल्यांकन की सटीकता (क्या जोखिम स्तर उचित है?)
  • अनुशंसित कार्यों की पूर्णता
  • आउटपुट प्रारूप अनुपालन (आवश्यक फ़ील्ड मौजूद, सही संरचना)

गोल्डन डेटासेट परीक्षण

मानव-सत्यापित अपेक्षित आउटपुट के साथ 50-200 प्रतिनिधि इनपुट का एक सुनहरा डेटासेट बनाए रखें। प्रत्येक उत्पादन परिनियोजन से पहले, इस डेटासेट के विरुद्ध एजेंट चलाएँ और सटीकता मेट्रिक्स की गणना करें। आपकी सीमा से कम सटीकता वाली तैनाती अवरुद्ध है।

गोल्डन डेटासेट निर्माण:

  1. उत्पादन ट्रैफ़िक से 200 वास्तविक इनपुट एकत्र करें (यदि आवश्यक हो तो अज्ञात)
  2. डोमेन विशेषज्ञों से प्रत्येक के लिए सही आउटपुट की समीक्षा और व्याख्या करने को कहें
  3. किनारे के मामलों, असामान्य इनपुट और सामान्य त्रुटि पैटर्न को कवर करने के लिए डेटासेट को स्तरीकृत करें
  4. गोल्डन डेटासेट के विरुद्ध आधारभूत सटीकता मेट्रिक्स स्थापित करें
  5. बेसलाइन के नीचे किसी भी प्रतिगमन को परिनियोजन अवरोधक के रूप में मानें

गोल्डन डेटासेट के लिए स्वचालित मूल्यांकन: एक एलएलएम को मूल्यांकनकर्ता के रूप में नियुक्त करें या प्रशिक्षित करें - एक अलग एलएलएम कॉल जो एजेंट के आउटपुट और मानव-सत्यापित अपेक्षित आउटपुट लेता है और एक समानता/शुद्धता स्कोर उत्पन्न करता है। यह "एलएलएम ऐज़ जज" पैटर्न है। सीमा रेखा के मामलों की मानवीय समीक्षा के साथ, यह लगातार चलने वाले स्वर्ण डेटासेट मूल्यांकन को मापता है।

एकीकरण परीक्षण

एकीकरण सहित संपूर्ण सिस्टम में शुरू से अंत तक एजेंट व्यवहार का परीक्षण करें:

एकीकरण परीक्षण परिदृश्य:

  • एजेंट ईआरपी से पढ़ता है, डेटा संसाधित करता है, वापस लिखता है - डेटा अखंडता को सत्यापित करता है
  • एजेंट बाहरी एपीआई को कॉल करता है, सफलता और विफलता प्रतिक्रियाओं को संभालता है
  • मल्टी-एजेंट वर्कफ़्लो में एजेंट दूसरे एजेंट के साथ समन्वय करता है
  • एजेंट टाइमआउट, दर सीमा और एपीआई अनुपलब्धता को शालीनता से संभालता है
  • एजेंट ऐसे आउटपुट उत्पन्न करता है जो डाउनस्ट्रीम व्यावसायिक प्रक्रियाओं को सही ढंग से ट्रिगर करता है

सिम्युलेटेड विफलता परीक्षण:

  • बाहरी एपीआई कॉल में टाइमआउट विफलताओं को इंजेक्ट करें
  • विकृत या गुम डेटा प्रदान करें
  • मॉडल प्रदाता अनुपलब्धता का अनुकरण करें
  • जब एजेंट कार्य पूरा नहीं कर पाता तो ग्रेसफुल डिग्रेडेशन का परीक्षण करें

उत्पादन निगरानी वास्तुकला

एआई एजेंट मॉनिटरिंग के चार स्तंभ

स्तंभ 1: परिचालन स्वास्थ्य (मानक सॉफ्टवेयर निगरानी)

  • अपटाइम और उपलब्धता
  • प्रति निष्पादन विलंबता (P50, P95, P99)
  • त्रुटि दर (एजेंट क्रैश, हैंडल न किए गए अपवाद, एपीआई विफलताएं)
  • कतार की गहराई और थ्रूपुट
  • संसाधन उपयोग (सीपीयू, मेमोरी, एपीआई समवर्ती)

स्तंभ 2: आउटपुट गुणवत्ता (एआई-विशिष्ट निगरानी)

  • नमूना आउटपुट पर सटीकता दर (मानव या एलएलएम-आकलित)
  • मतिभ्रम का पता लगाना (ऐसे आउटपुट जिनमें दी गई संदर्भ में जानकारी नहीं है)
  • प्रारूप अनुपालन दर (आउटपुट जो आवश्यक संरचना को पूरा करते हैं)
  • आत्मविश्वास स्कोर वितरण (एजेंट जो अचानक कम आत्मविश्वास संकेत गिरावट व्यक्त करते हैं)
  • कार्य पूर्णता दर (एजेंट सफलतापूर्वक पूर्ण आउटपुट उत्पन्न करता है बनाम त्रुटि या अपूर्ण प्रतिक्रिया देता है)

स्तंभ 3: व्यावसायिक प्रभाव (परिणाम की निगरानी)

  • डाउनस्ट्रीम कार्रवाई की सफलता दर (सफलतापूर्वक दिए गए ऑर्डर, सही तरीके से मंजूरी आदि)
  • मानव ओवरराइड दर (कितनी बार मनुष्य एजेंट के निर्णयों को ओवरराइड कर रहे हैं)
  • ग्राहक-सामना करने वाले एजेंटों के लिए ग्राहक संतुष्टि (CSAT, NPS)
  • अपवाद दर (इनपुट मानव समीक्षा के लिए बढ़ाए गए)
  • प्रक्रिया चक्र समय (अंत-से-अंत कार्य पूरा होने का समय)

स्तंभ 4: लागत (टोकन और एपीआई लागत निगरानी)

  • प्रति निष्पादन टोकन खपत (इनपुट + आउटपुट)
  • प्रति सफल कार्य समापन की लागत
  • असंगत टोकन उपयोग (औसत सिग्नल प्रॉम्प्ट इंजेक्शन या संदर्भ प्रदूषण की तुलना में काफी अधिक टोकन का उपभोग करने वाले निष्पादन)
  • दैनिक/साप्ताहिक लागत प्रवृत्ति बनाम पूर्वानुमान

अवलोकनीयता कार्यान्वयन

OpenClaw अंतर्निहित निष्पादन अनुरेखण प्रदान करता है। प्रत्येक एजेंट रन एक संरचित ट्रेस उत्पन्न करता है जिसमें शामिल हैं:

  • निष्पादन आईडी और टाइमस्टैम्प
  • इनपुट डेटा (पीआईआई रिडक्शन लागू होने के साथ)
  • संदर्भ पुनर्प्राप्त (आरएजी अंश, पूर्व वार्तालाप मोड़)
  • पूर्ण संकेत एलएलएम को भेजा गया
  • एलएलएम प्रतिक्रिया
  • प्रसंस्करण के बाद के चरण
  • अंतिम आउटपुट
  • टोकन गिनती और लागत
  • कुल निष्पादन समय
  • कोई अपवाद या वृद्धि

जब कोई एजेंट गलत आउटपुट उत्पन्न करता है तो यह ट्रेस डेटा पोस्ट-हॉक डिबगिंग को सक्षम बनाता है। आप सटीक निष्पादन दोबारा चला सकते हैं और हर चरण देख सकते हैं।

ट्रेस नमूनाकरण रणनीति:

  • उच्च मूल्य वाले लेनदेन का 100% नमूना (> $X मौद्रिक प्रभाव)
  • अपवादों और वृद्धि का 100% नमूना
  • गुणवत्ता निगरानी के लिए नियमित लेनदेन का 5-10% नमूना
  • समस्याओं की रिपोर्ट करने वाले ग्राहकों के लिए 100% आउटपुट का नमूना

डैशबोर्ड डिज़ाइन

प्रभावी एआई एजेंट मॉनिटरिंग डैशबोर्ड पारंपरिक एप्लिकेशन डैशबोर्ड की तुलना में भिन्न जानकारी संचारित करते हैं। मुख्य पैनल:

वास्तविक समय संचालन पैनल:

  • सक्रिय निष्पादन
  • कतार की गहराई
  • निष्पादन दर (अंतिम 5 मिनट बनाम बेसलाइन)
  • त्रुटि दर (अंतिम 5 मिनट)
  • P95 विलंबता

गुणवत्ता ट्रेंड पैनल (24 घंटे का दृश्य):

  • सटीकता दर प्रवृत्ति (नमूना मूल्यांकन से)
  • मानव ओवरराइड दर प्रवृत्ति
  • अपवाद/वृद्धि दर की प्रवृत्ति
  • आत्मविश्वास स्कोर वितरण

लागत पैनल:

  • आज की टोकन खपत बनाम पूर्वानुमान
  • प्रति सफल कार्य की लागत (रुझान)
  • असंगत निष्पादन (बाहरी टोकन खपत)
  • साप्ताहिक लागत प्रक्षेपण

व्यावसायिक परिणाम पैनल:

  • वर्कफ़्लो प्रकार के अनुसार कार्य पूर्णता दर
  • डाउनस्ट्रीम सफलता दर
  • ग्राहक संतुष्टि (यदि मापा जाए)
  • संसाधित मात्रा (पिछली अवधि की तुलना में)

बहाव का पता लगाना

एआई एजेंट विफलता के सबसे घातक तरीकों में से एक क्रमिक बहाव है - जैसे-जैसे इनपुट का वितरण प्रशिक्षण वितरण से दूर होता जाता है, या प्रदाता द्वारा मॉडल को अपडेट किया जाता है, एजेंट का प्रदर्शन समय के साथ धीरे-धीरे कम होता जाता है।

इनपुट वितरण निगरानी

समय के साथ अपने इनपुट डेटा वितरण के बारे में आँकड़े ट्रैक करें। महत्वपूर्ण बदलावों पर अलर्ट:

  • शब्दावली बहाव (नए शब्द दिखाई दे रहे हैं जो प्रशिक्षण डेटा में नहीं थे)
  • इनपुट लंबाई वितरण परिवर्तन (असामान्य रूप से लंबे या छोटे इनपुट)
  • इनपुट में भाषा या प्रारूप परिवर्तन
  • दस्तावेज़ प्रसंस्करण पाइपलाइनों में दिखाई देने वाले नए दस्तावेज़ प्रकार

मॉडल संस्करण परिवर्तन का पता लगाना

एलएलएम प्रदाता अपने मॉडलों को लगातार अपडेट करते रहते हैं। कुछ अपडेट मौन हैं (समान मॉडल पहचानकर्ता, अलग-अलग वजन)। इसके लिए मॉनिटर करें:

  • प्रतिक्रिया लंबाई वितरण परिवर्तन
  • प्रारूप अनुपालन दर में परिवर्तन
  • विलंबता प्रोफ़ाइल बदल जाती है
  • कॉन्फिडेंस स्कोर वितरण में बदलाव

जब इनमें से कोई भी मेट्रिक्स महत्वपूर्ण रूप से बदलता है, तो सटीकता प्रभाव को मापने के लिए तुरंत गोल्डन डेटासेट मूल्यांकन चलाएं।

संकल्पना बहाव

व्यावसायिक नियम और डोमेन ज्ञान समय के साथ बदलते हैं। 2024 मूल्य निर्धारण नियमों को लागू करने के लिए प्रशिक्षित एक एजेंट 2025 मूल्य निर्धारण नियमों के प्रभावी होने पर गलत आउटपुट देगा। मॉनिटर:

  • कारण कोड द्वारा मानव ओवरराइड दर (किसी विशिष्ट कारण के लिए बढ़ती ओवरराइड उस क्षेत्र में अवधारणा बहाव को इंगित करती है)
  • त्रुटि प्रकार वितरण परिवर्तन
  • अपवाद वृद्धि के कारण

एआई एजेंटों के लिए घटना प्रतिक्रिया

एआई एजेंट घटनाएं पारंपरिक सॉफ्टवेयर घटनाओं से भिन्न होती हैं। विफलता अक्सर दुर्घटना नहीं होती - यह आउटपुट गुणवत्ता में गिरावट है जो व्यावसायिक परिणामों को सूक्ष्मता से प्रभावित करती है।

घटना की गंभीरता का स्तर:

स्तरपरिभाषाप्रतिक्रिया समयकार्रवाई
पी1वित्तीय या सुरक्षा निर्णयों को प्रभावित करने वाले व्यवस्थित रूप से गलत आउटपुट देने वाला एजेंटतत्कालएजेंट को अक्षम करें, मैन्युअल फ़ॉलबैक
पी2सटीकता में गिरावट >बेसलाइन से 10% नीचे30 मिनटसचेत करें, मूल कारण का मूल्यांकन करें, अक्षम करने पर विचार करें
पी3अपवाद दर बढ़ी, गुणवत्ता सीमा रेखा2 घंटेजांच करें, बारीकी से निगरानी करें
पी4प्रदर्शन में गिरावट आई लेकिन स्वीकार्य सीमा के भीतरअगला कारोबारी दिनअगले पुनरावृत्ति चक्र के लिए लॉग इन करें

पी1 घटना प्रतिक्रिया प्लेबुक:

  1. पता लगाएं: निगरानी प्रणाली से स्वचालित अलर्ट ट्रिगर
  2. आकलन करें (5 मिनट): हाल के निष्पादन की समीक्षा करें, त्रुटि पैटर्न की पहचान करें
  3. समाहित (10 मिनट): मैन्युअल फ़ॉलबैक प्रक्रिया पर स्विच करें, यदि आवश्यक हो तो एजेंट को अक्षम करें
  4. निदान (30-60 मिनट): मूल कारण की पहचान करें (मॉडल परिवर्तन, इनपुट वितरण बदलाव, शीघ्र प्रतिगमन, एकीकरण विफलता)
  5. उपचार: समाधान लागू करें (शीघ्र अद्यतन, मॉडल रोलबैक, इनपुट सत्यापन परिवर्तन, एकीकरण सुधार)
  6. मान्य करें: निश्चित एजेंट के विरुद्ध गोल्डन डेटासेट मूल्यांकन चलाएँ
  7. पुनर्स्थापित करें: उन्नत अलर्ट स्थिति में निगरानी के साथ एजेंट को पुनः सक्षम करें
  8. पोस्टमॉर्टम: 48 घंटों के भीतर दस्तावेज़ - क्या विफल हुआ, क्यों, पुनरावृत्ति को कैसे रोका जाए

एजेंट सुधार के लिए ए/बी परीक्षण

एआई एजेंटों में सुधार के लिए पूर्ण तैनाती से पहले परिवर्तनों का सुरक्षित रूप से मूल्यांकन करना आवश्यक है। ए/बी परीक्षण इसे सक्षम बनाता है:

छाया मोड परीक्षण: नए एजेंट संस्करण को उसके आउटपुट का उपयोग किए बिना उत्पादन ट्रैफ़िक पर चलाएं - ग्राहकों को प्रभावित करने से पहले अंतर को मापने के लिए छाया आउटपुट की वर्तमान एजेंट आउटपुट से तुलना करें।

कैनरी परिनियोजन: उत्पादन ट्रैफ़िक का 5-10% नए एजेंट संस्करण पर रूट करें। कैनरी जनसंख्या बनाम नियंत्रण जनसंख्या पर गुणवत्ता मेट्रिक्स की निगरानी करें। यदि मेट्रिक्स में सुधार होता है या रुक जाता है तो आगे रोल करें, यदि वे ख़राब होते हैं तो पीछे रोल करें।

चैंपियन/चैलेंजर: वर्तमान उत्पादन एजेंट "चैंपियन" है। नए एजेंट संस्करण "चुनौतीपूर्ण" हैं। चैंपियन बनने से पहले चैलेंजर्स को गोल्डन डेटासेट पर सांख्यिकीय रूप से महत्वपूर्ण सुधार साबित करना होगा।

रोलबैक ट्रिगर्स: स्वचालित रोलबैक ट्रिगर्स को परिभाषित करें - यदि कैनरी की सटीकता सीमा से नीचे गिर जाती है या मानव ओवरराइड दर सीमा से ऊपर बढ़ जाती है, तो स्वचालित रूप से चैंपियन पर वापस आ जाता है।


अक्सर पूछे जाने वाले प्रश्न

हमें उत्पादन में कितनी बार गोल्डन डेटासेट मूल्यांकन चलाना चाहिए?

प्रत्येक परिनियोजन (मॉडल संस्करण परिवर्तन सहित), साप्ताहिक रूप से स्वास्थ्य जांच के रूप में चलाएं, और जब निगरानी में विसंगतियों का पता चले तो तुरंत चलाएं। उच्च-दांव वाले एजेंटों (वित्तीय निर्णय, चिकित्सा दस्तावेज़ीकरण) के लिए, प्रतिदिन दौड़ें। स्वचालित सीआई/सीडी पाइपलाइन प्रत्येक कोड परिवर्तन पर स्वचालित रूप से गोल्डन डेटासेट मूल्यांकन को ट्रिगर कर सकती हैं।

जब एलएलएम प्रदाता चुपचाप मॉडल को अपडेट करता है तो हम कैसे पता लगाते हैं?

प्रतिक्रिया विशेषताओं की निगरानी करें जो स्थिर होनी चाहिए: औसत प्रतिक्रिया लंबाई, प्रारूप अनुपालन दर, आत्मविश्वास स्कोर वितरण और विलंबता प्रोफ़ाइल। इन मेट्रिक्स में कोई भी महत्वपूर्ण परिवर्तन सटीकता प्रभाव को मापने के लिए एक सुनहरे डेटासेट मूल्यांकन को ट्रिगर करता है। कुछ प्रदाता मॉडल संस्करण की पेशकश करते हैं जो एक विशिष्ट संस्करण पर पिन करता है - जहां उपलब्ध हो वहां इसका उपयोग करें।

उत्पादन एआई एजेंटों के लिए स्वीकार्य सटीकता सीमा क्या है?

यह पूरी तरह से उपयोग के मामले और त्रुटियों की लागत पर निर्भर करता है। स्वायत्त वित्तीय निर्णय लेने वाले एजेंटों के लिए, आमतौर पर 98%+ सटीकता की आवश्यकता होती है। ऐसे ड्राफ्ट बनाने वाले एजेंटों के लिए जिनकी समीक्षा मनुष्य करता है, 85-90% अक्सर स्वीकार्य होता है क्योंकि मनुष्य त्रुटियों को पकड़ लेता है। आंतरिक विश्लेषण उत्पन्न करने वाले एजेंटों के लिए जहां त्रुटियां कम जोखिम वाली होती हैं, 80% पर्याप्त हो सकता है। अपनी सीमा को त्रुटि लागत विश्लेषण के आधार पर परिभाषित करें, मनमाने बेंचमार्क के आधार पर नहीं।

हम एजेंट निष्पादन के निशान संग्रहीत करने के लिए जीडीपीआर और डेटा गोपनीयता आवश्यकताओं को कैसे संभालते हैं?

ओपनक्लाव का ट्रेस सिस्टम भंडारण से पहले पीआईआई रिडक्शन का समर्थन करता है - कॉन्फ़िगर करें कि ट्रेस कॉन्फ़िगरेशन में कौन से फ़ील्ड को रिडक्ट किया जाए। डेटा न्यूनतमकरण आवश्यकताओं का अनुपालन करने के लिए ट्रेस को कॉन्फ़िगर करने योग्य अवधारण अवधि के साथ संग्रहीत किया जाता है। ईयू-आधारित परिनियोजन के लिए, ट्रेस स्टोरेज को केवल ईयू क्षेत्रों में कॉन्फ़िगर किया जा सकता है। व्यक्ति जीडीपीआर राइट-टू-इरेज़र प्रावधानों के तहत अपने डेटा को निशानों से हटाने का अनुरोध कर सकते हैं।

प्रभावी गुणवत्ता निगरानी के लिए हमें आवश्यक मानव समीक्षा नमूनाकरण दर क्या है?

अधिकांश एजेंटों के लिए, उत्पादन आउटपुट का 2-5% नमूनाकरण सांख्यिकीय रूप से महत्वपूर्ण गुणवत्ता निगरानी प्रदान करता है। उच्च-मूल्य या उच्च-जोखिम वाले एजेंटों के लिए, 10-20% तक बढ़ाएं। समीक्षा प्रक्रिया को संरचित किया जाना चाहिए - समीक्षक सामान्य छापों के बजाय मानकीकृत रूब्रिक का उपयोग करते हैं। ओपनक्लाव का समीक्षा इंटरफ़ेस रूब्रिक के साथ नमूना आउटपुट प्रस्तुत करता है और संरचित फीडबैक कैप्चर करता है।

क्या हम किसी अन्य एलएलएम का उपयोग करके मानव समीक्षा प्रक्रिया को स्वचालित कर सकते हैं?

आंशिक रूप से। "एलएलएम जज के रूप में" पैटर्न आउटपुट प्रारूप, पूर्णता और बुनियादी तथ्यात्मक सटीकता के मूल्यांकन के लिए अच्छी तरह से काम करते हैं। वे डोमेन-विशिष्ट शुद्धता के मूल्यांकन के लिए कम अच्छी तरह से काम करते हैं (क्या अनुबंध जोखिम मूल्यांकन सही है, इसके लिए कानूनी विशेषज्ञता की आवश्यकता होती है, सामान्य एआई निर्णय की नहीं)। अंशांकन और सत्यापन के लिए पैमाने और मानव समीक्षा के लिए स्वचालित एलएलएम मूल्यांकन का उपयोग करें।


अगले चरण

एआई एजेंटों के लिए उत्पादन-ग्रेड परीक्षण और निगरानी को लागू करने के लिए एआई सिस्टम और डेवऑप्स प्रथाओं दोनों के साथ अनुभव की आवश्यकता होती है। ECOSIRE के OpenClaw कार्यान्वयन में आपके विशिष्ट एजेंट वर्कफ़्लो, पूर्व-कॉन्फ़िगर डैशबोर्ड, अलर्ट नीतियों और घटना प्रतिक्रिया रनबुक के लिए डिज़ाइन किया गया एक मॉनिटरिंग आर्किटेक्चर शामिल है।

OpenClaw समर्थन और रखरखाव सेवाओं का अन्वेषण करें चल रही निगरानी और अनुकूलन विकल्पों के बारे में जानने के लिए, या अपने वर्तमान या नियोजित OpenClaw परिनियोजन के लिए निगरानी वास्तुकला पर चर्चा करने के लिए परामर्श निर्धारित करने के लिए।

शेयर करें:
E

लेखक

ECOSIRE Research and Development Team

ECOSIRE में एंटरप्राइज़-ग्रेड डिजिटल उत्पाद बना रहे हैं। Odoo एकीकरण, ई-कॉमर्स ऑटोमेशन, और AI-संचालित व्यावसायिक समाधानों पर अंतर्दृष्टि साझा कर रहे हैं।

WhatsApp पर चैट करें