Testing and Monitoring AI Agents in Production

उत्पादन में एआई एजेंट को तैनात करना कार्यान्वयन का अंत नहीं है - यह एक परिचालन अनुशासन की शुरुआत है जो पारंपरिक सॉफ्टवेयर के लिए मौजूद नहीं है। पारंपरिक एप्लिकेशन निश्चित रूप से विफल हो जाते हैं: समान इनपुट दिए जाने पर, आपको वही (गलत) आउटपुट मिलता है। एआई एजेंट संभावित रूप से विफल हो जाते हैं: एक ही इनपुट 97% समय में सही आउटपुट देता है और 3% बार सूक्ष्म रूप से गलत आउटपुट देता है, और मॉडल अपडेट होने, इनपुट वितरण में बदलाव और व्यावसायिक नियम विकसित होने पर 3% परिवर्तन होता है।

यह मार्गदर्शिका OpenClaw कार्यान्वयन के लिए विशिष्ट पैटर्न के साथ, तैनाती से पहले AI एजेंटों के परीक्षण और उत्पादन में उनकी निरंतर निगरानी के लिए संपूर्ण परिचालन ढांचे को शामिल करती है।

मुख्य बातें

एआई एजेंट परीक्षण के लिए कार्यात्मक परीक्षण (सही आउटपुट) और व्यवहार परीक्षण (लगातार तर्क) दोनों की आवश्यकता होती है

जब मॉडल अपडेट होते हैं तो रिग्रेशन परीक्षण महत्वपूर्ण होता है - मान लें कि व्यवहार बदल जाएगा जब तक कि अन्यथा साबित न हो जाए

उत्पादन निगरानी को केवल उपलब्धता और विलंबता ही नहीं, बल्कि सटीकता मेट्रिक्स को भी ट्रैक करना चाहिए

टोकन उपयोग और लागत निगरानी अप्रत्याशित बिलिंग स्पाइक्स को रोकती है

एजेंट आउटपुट में विसंगति का पता लगाने से व्यावसायिक परिणामों को प्रभावित करने से पहले सटीकता में गिरावट आती है

मानव समीक्षा नमूनाकरण स्वचालित निगरानी को अंशांकित करने के लिए जमीनी सच्चाई प्रदान करता है

एआई एजेंटों के लिए घटना प्रतिक्रिया प्लेबुक पारंपरिक सॉफ्टवेयर घटनाओं से मौलिक रूप से भिन्न हैं

ए/बी परीक्षण ढांचा त्वरित परिवर्तनों और मॉडल उन्नयन के सुरक्षित मूल्यांकन को सक्षम बनाता है

एआई एजेंट परीक्षण अलग क्यों है

एआई एजेंटों के परीक्षण के लिए पारंपरिक सॉफ़्टवेयर के परीक्षण से मौलिक रूप से भिन्न मानसिकता की आवश्यकता होती है। पारंपरिक सॉफ़्टवेयर परीक्षण में, आप परीक्षण मामले लिखते हैं, इनपुट प्रदान करते हैं, और अपेक्षित मानों के विरुद्ध आउटपुट सत्यापित करते हैं। यदि परीक्षण लगातार उत्तीर्ण होता है, तो सॉफ्टवेयर सही है।

एआई एजेंट इस तरह से काम नहीं करते हैं। उनके आउटपुट संभाव्य हैं - वे सही, थोड़े अलग या पूरी तरह से गलत हो सकते हैं, और परिणामों की संभाव्यता वितरण मॉडल संस्करण, प्रदान किए गए संदर्भ और इनपुट के विशिष्ट वाक्यांश पर निर्भर करती है। तीन चुनौतियाँ पारंपरिक परीक्षण को अपर्याप्त बनाती हैं:

गैर-नियतिवाद: एक ही प्रॉम्प्ट को दो बार चलाने से अलग-अलग आउटपुट मिल सकते हैं। परीक्षणों को एक सीमा के भीतर आउटपुट गुणवत्ता का मूल्यांकन करना चाहिए, सटीक समानता का नहीं।

मॉडल संस्करण संवेदनशीलता: जब आपका एलएलएम प्रदाता एक नया मॉडल संस्करण जारी करता है, तो आपके एजेंट का व्यवहार ऐसे तरीकों से बदल सकता है जो तुरंत स्पष्ट नहीं होते हैं। एक मॉडल जो आपके कार्य पर 94% सटीक था, वह 96% तक सुधर सकता है या 91% तक ख़राब हो सकता है - आपको इसका पता लगाने के लिए तंत्र की आवश्यकता है।

संदर्भ निर्भरता: एजेंट का व्यवहार काफी हद तक दिए गए संदर्भ (पुनर्प्राप्त दस्तावेज़, बातचीत का इतिहास, सिस्टम निर्देश) पर निर्भर करता है। संदर्भ असेंबली में छोटे परिवर्तन आउटपुट गुणवत्ता को महत्वपूर्ण रूप से प्रभावित कर सकते हैं।

प्री-प्रोडक्शन टेस्टिंग फ्रेमवर्क

कौशल के लिए यूनिट परीक्षण

प्रत्येक ओपनक्लॉ कौशल में एक परीक्षण सूट होना चाहिए जो इनपुट के प्रतिनिधि नमूने के साथ उसके व्यवहार को मान्य करता है। ये परीक्षण मानक अभिकथन-बराबर परीक्षण नहीं हैं - वे एक मूल्यांकन ढांचे का उपयोग करते हैं जो आउटपुट गुणवत्ता का स्कोर करता है।

अनुबंध समीक्षा कौशल के लिए परीक्षण संरचना:

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

प्रत्येक परीक्षण के लिए मूल्यांकन मानदंड:

याद करें (क्या एजेंट को पता चला कि वहां क्या था?)
परिशुद्धता (क्या एजेंट ने केवल प्रासंगिक वस्तुओं को चिह्नित किया था?)
जोखिम मूल्यांकन की सटीकता (क्या जोखिम स्तर उचित है?)
अनुशंसित कार्यों की पूर्णता
आउटपुट प्रारूप अनुपालन (आवश्यक फ़ील्ड मौजूद, सही संरचना)

गोल्डन डेटासेट परीक्षण

मानव-सत्यापित अपेक्षित आउटपुट के साथ 50-200 प्रतिनिधि इनपुट का एक सुनहरा डेटासेट बनाए रखें। प्रत्येक उत्पादन परिनियोजन से पहले, इस डेटासेट के विरुद्ध एजेंट चलाएँ और सटीकता मेट्रिक्स की गणना करें। आपकी सीमा से कम सटीकता वाली तैनाती अवरुद्ध है।

गोल्डन डेटासेट निर्माण:

उत्पादन ट्रैफ़िक से 200 वास्तविक इनपुट एकत्र करें (यदि आवश्यक हो तो अज्ञात)
डोमेन विशेषज्ञों से प्रत्येक के लिए सही आउटपुट की समीक्षा और व्याख्या करने को कहें
किनारे के मामलों, असामान्य इनपुट और सामान्य त्रुटि पैटर्न को कवर करने के लिए डेटासेट को स्तरीकृत करें
गोल्डन डेटासेट के विरुद्ध आधारभूत सटीकता मेट्रिक्स स्थापित करें
बेसलाइन के नीचे किसी भी प्रतिगमन को परिनियोजन अवरोधक के रूप में मानें

गोल्डन डेटासेट के लिए स्वचालित मूल्यांकन: एक एलएलएम को मूल्यांकनकर्ता के रूप में नियुक्त करें या प्रशिक्षित करें - एक अलग एलएलएम कॉल जो एजेंट के आउटपुट और मानव-सत्यापित अपेक्षित आउटपुट लेता है और एक समानता/शुद्धता स्कोर उत्पन्न करता है। यह "एलएलएम ऐज़ जज" पैटर्न है। सीमा रेखा के मामलों की मानवीय समीक्षा के साथ, यह लगातार चलने वाले स्वर्ण डेटासेट मूल्यांकन को मापता है।

एकीकरण परीक्षण

एकीकरण सहित संपूर्ण सिस्टम में शुरू से अंत तक एजेंट व्यवहार का परीक्षण करें:

एकीकरण परीक्षण परिदृश्य:

एजेंट ईआरपी से पढ़ता है, डेटा संसाधित करता है, वापस लिखता है - डेटा अखंडता को सत्यापित करता है
एजेंट बाहरी एपीआई को कॉल करता है, सफलता और विफलता प्रतिक्रियाओं को संभालता है
मल्टी-एजेंट वर्कफ़्लो में एजेंट दूसरे एजेंट के साथ समन्वय करता है
एजेंट टाइमआउट, दर सीमा और एपीआई अनुपलब्धता को शालीनता से संभालता है
एजेंट ऐसे आउटपुट उत्पन्न करता है जो डाउनस्ट्रीम व्यावसायिक प्रक्रियाओं को सही ढंग से ट्रिगर करता है

सिम्युलेटेड विफलता परीक्षण:

बाहरी एपीआई कॉल में टाइमआउट विफलताओं को इंजेक्ट करें
विकृत या गुम डेटा प्रदान करें
मॉडल प्रदाता अनुपलब्धता का अनुकरण करें
जब एजेंट कार्य पूरा नहीं कर पाता तो ग्रेसफुल डिग्रेडेशन का परीक्षण करें

उत्पादन निगरानी वास्तुकला

एआई एजेंट मॉनिटरिंग के चार स्तंभ

स्तंभ 1: परिचालन स्वास्थ्य (मानक सॉफ्टवेयर निगरानी)

अपटाइम और उपलब्धता
प्रति निष्पादन विलंबता (P50, P95, P99)
त्रुटि दर (एजेंट क्रैश, हैंडल न किए गए अपवाद, एपीआई विफलताएं)
कतार की गहराई और थ्रूपुट
संसाधन उपयोग (सीपीयू, मेमोरी, एपीआई समवर्ती)

स्तंभ 2: आउटपुट गुणवत्ता (एआई-विशिष्ट निगरानी)

नमूना आउटपुट पर सटीकता दर (मानव या एलएलएम-आकलित)
मतिभ्रम का पता लगाना (ऐसे आउटपुट जिनमें दी गई संदर्भ में जानकारी नहीं है)
प्रारूप अनुपालन दर (आउटपुट जो आवश्यक संरचना को पूरा करते हैं)
आत्मविश्वास स्कोर वितरण (एजेंट जो अचानक कम आत्मविश्वास संकेत गिरावट व्यक्त करते हैं)
कार्य पूर्णता दर (एजेंट सफलतापूर्वक पूर्ण आउटपुट उत्पन्न करता है बनाम त्रुटि या अपूर्ण प्रतिक्रिया देता है)

स्तंभ 3: व्यावसायिक प्रभाव (परिणाम की निगरानी)

डाउनस्ट्रीम कार्रवाई की सफलता दर (सफलतापूर्वक दिए गए ऑर्डर, सही तरीके से मंजूरी आदि)
मानव ओवरराइड दर (कितनी बार मनुष्य एजेंट के निर्णयों को ओवरराइड कर रहे हैं)
ग्राहक-सामना करने वाले एजेंटों के लिए ग्राहक संतुष्टि (CSAT, NPS)
अपवाद दर (इनपुट मानव समीक्षा के लिए बढ़ाए गए)
प्रक्रिया चक्र समय (अंत-से-अंत कार्य पूरा होने का समय)

स्तंभ 4: लागत (टोकन और एपीआई लागत निगरानी)

प्रति निष्पादन टोकन खपत (इनपुट + आउटपुट)
प्रति सफल कार्य समापन की लागत
असंगत टोकन उपयोग (औसत सिग्नल प्रॉम्प्ट इंजेक्शन या संदर्भ प्रदूषण की तुलना में काफी अधिक टोकन का उपभोग करने वाले निष्पादन)
दैनिक/साप्ताहिक लागत प्रवृत्ति बनाम पूर्वानुमान

अवलोकनीयता कार्यान्वयन

OpenClaw अंतर्निहित निष्पादन अनुरेखण प्रदान करता है। प्रत्येक एजेंट रन एक संरचित ट्रेस उत्पन्न करता है जिसमें शामिल हैं:

निष्पादन आईडी और टाइमस्टैम्प
इनपुट डेटा (पीआईआई रिडक्शन लागू होने के साथ)
संदर्भ पुनर्प्राप्त (आरएजी अंश, पूर्व वार्तालाप मोड़)
पूर्ण संकेत एलएलएम को भेजा गया
एलएलएम प्रतिक्रिया
प्रसंस्करण के बाद के चरण
अंतिम आउटपुट
टोकन गिनती और लागत
कुल निष्पादन समय
कोई अपवाद या वृद्धि

जब कोई एजेंट गलत आउटपुट उत्पन्न करता है तो यह ट्रेस डेटा पोस्ट-हॉक डिबगिंग को सक्षम बनाता है। आप सटीक निष्पादन दोबारा चला सकते हैं और हर चरण देख सकते हैं।

ट्रेस नमूनाकरण रणनीति:

उच्च मूल्य वाले लेनदेन का 100% नमूना (> $X मौद्रिक प्रभाव)
अपवादों और वृद्धि का 100% नमूना
गुणवत्ता निगरानी के लिए नियमित लेनदेन का 5-10% नमूना
समस्याओं की रिपोर्ट करने वाले ग्राहकों के लिए 100% आउटपुट का नमूना

डैशबोर्ड डिज़ाइन

प्रभावी एआई एजेंट मॉनिटरिंग डैशबोर्ड पारंपरिक एप्लिकेशन डैशबोर्ड की तुलना में भिन्न जानकारी संचारित करते हैं। मुख्य पैनल:

वास्तविक समय संचालन पैनल:

सक्रिय निष्पादन
कतार की गहराई
निष्पादन दर (अंतिम 5 मिनट बनाम बेसलाइन)
त्रुटि दर (अंतिम 5 मिनट)
P95 विलंबता

गुणवत्ता ट्रेंड पैनल (24 घंटे का दृश्य):

सटीकता दर प्रवृत्ति (नमूना मूल्यांकन से)
मानव ओवरराइड दर प्रवृत्ति
अपवाद/वृद्धि दर की प्रवृत्ति
आत्मविश्वास स्कोर वितरण

लागत पैनल:

आज की टोकन खपत बनाम पूर्वानुमान
प्रति सफल कार्य की लागत (रुझान)
असंगत निष्पादन (बाहरी टोकन खपत)
साप्ताहिक लागत प्रक्षेपण

व्यावसायिक परिणाम पैनल:

वर्कफ़्लो प्रकार के अनुसार कार्य पूर्णता दर
डाउनस्ट्रीम सफलता दर
ग्राहक संतुष्टि (यदि मापा जाए)
संसाधित मात्रा (पिछली अवधि की तुलना में)

बहाव का पता लगाना

एआई एजेंट विफलता के सबसे घातक तरीकों में से एक क्रमिक बहाव है - जैसे-जैसे इनपुट का वितरण प्रशिक्षण वितरण से दूर होता जाता है, या प्रदाता द्वारा मॉडल को अपडेट किया जाता है, एजेंट का प्रदर्शन समय के साथ धीरे-धीरे कम होता जाता है।

इनपुट वितरण निगरानी

समय के साथ अपने इनपुट डेटा वितरण के बारे में आँकड़े ट्रैक करें। महत्वपूर्ण बदलावों पर अलर्ट:

शब्दावली बहाव (नए शब्द दिखाई दे रहे हैं जो प्रशिक्षण डेटा में नहीं थे)
इनपुट लंबाई वितरण परिवर्तन (असामान्य रूप से लंबे या छोटे इनपुट)
इनपुट में भाषा या प्रारूप परिवर्तन
दस्तावेज़ प्रसंस्करण पाइपलाइनों में दिखाई देने वाले नए दस्तावेज़ प्रकार

मॉडल संस्करण परिवर्तन का पता लगाना

एलएलएम प्रदाता अपने मॉडलों को लगातार अपडेट करते रहते हैं। कुछ अपडेट मौन हैं (समान मॉडल पहचानकर्ता, अलग-अलग वजन)। इसके लिए मॉनिटर करें:

प्रतिक्रिया लंबाई वितरण परिवर्तन
प्रारूप अनुपालन दर में परिवर्तन
विलंबता प्रोफ़ाइल बदल जाती है
कॉन्फिडेंस स्कोर वितरण में बदलाव

जब इनमें से कोई भी मेट्रिक्स महत्वपूर्ण रूप से बदलता है, तो सटीकता प्रभाव को मापने के लिए तुरंत गोल्डन डेटासेट मूल्यांकन चलाएं।

संकल्पना बहाव

व्यावसायिक नियम और डोमेन ज्ञान समय के साथ बदलते हैं। 2024 मूल्य निर्धारण नियमों को लागू करने के लिए प्रशिक्षित एक एजेंट 2025 मूल्य निर्धारण नियमों के प्रभावी होने पर गलत आउटपुट देगा। मॉनिटर:

कारण कोड द्वारा मानव ओवरराइड दर (किसी विशिष्ट कारण के लिए बढ़ती ओवरराइड उस क्षेत्र में अवधारणा बहाव को इंगित करती है)
त्रुटि प्रकार वितरण परिवर्तन
अपवाद वृद्धि के कारण

एआई एजेंटों के लिए घटना प्रतिक्रिया

एआई एजेंट घटनाएं पारंपरिक सॉफ्टवेयर घटनाओं से भिन्न होती हैं। विफलता अक्सर दुर्घटना नहीं होती - यह आउटपुट गुणवत्ता में गिरावट है जो व्यावसायिक परिणामों को सूक्ष्मता से प्रभावित करती है।

घटना की गंभीरता का स्तर:

स्तर	परिभाषा	प्रतिक्रिया समय	कार्रवाई
पी1	वित्तीय या सुरक्षा निर्णयों को प्रभावित करने वाले व्यवस्थित रूप से गलत आउटपुट देने वाला एजेंट	तत्काल	एजेंट को अक्षम करें, मैन्युअल फ़ॉलबैक
पी2	सटीकता में गिरावट >बेसलाइन से 10% नीचे	30 मिनट	सचेत करें, मूल कारण का मूल्यांकन करें, अक्षम करने पर विचार करें
पी3	अपवाद दर बढ़ी, गुणवत्ता सीमा रेखा	2 घंटे	जांच करें, बारीकी से निगरानी करें
पी4	प्रदर्शन में गिरावट आई लेकिन स्वीकार्य सीमा के भीतर	अगला कारोबारी दिन	अगले पुनरावृत्ति चक्र के लिए लॉग इन करें

पी1 घटना प्रतिक्रिया प्लेबुक:

पता लगाएं: निगरानी प्रणाली से स्वचालित अलर्ट ट्रिगर
आकलन करें (5 मिनट): हाल के निष्पादन की समीक्षा करें, त्रुटि पैटर्न की पहचान करें
समाहित (10 मिनट): मैन्युअल फ़ॉलबैक प्रक्रिया पर स्विच करें, यदि आवश्यक हो तो एजेंट को अक्षम करें
निदान (30-60 मिनट): मूल कारण की पहचान करें (मॉडल परिवर्तन, इनपुट वितरण बदलाव, शीघ्र प्रतिगमन, एकीकरण विफलता)
उपचार: समाधान लागू करें (शीघ्र अद्यतन, मॉडल रोलबैक, इनपुट सत्यापन परिवर्तन, एकीकरण सुधार)
मान्य करें: निश्चित एजेंट के विरुद्ध गोल्डन डेटासेट मूल्यांकन चलाएँ
पुनर्स्थापित करें: उन्नत अलर्ट स्थिति में निगरानी के साथ एजेंट को पुनः सक्षम करें
पोस्टमॉर्टम: 48 घंटों के भीतर दस्तावेज़ - क्या विफल हुआ, क्यों, पुनरावृत्ति को कैसे रोका जाए

एजेंट सुधार के लिए ए/बी परीक्षण

एआई एजेंटों में सुधार के लिए पूर्ण तैनाती से पहले परिवर्तनों का सुरक्षित रूप से मूल्यांकन करना आवश्यक है। ए/बी परीक्षण इसे सक्षम बनाता है:

छाया मोड परीक्षण: नए एजेंट संस्करण को उसके आउटपुट का उपयोग किए बिना उत्पादन ट्रैफ़िक पर चलाएं - ग्राहकों को प्रभावित करने से पहले अंतर को मापने के लिए छाया आउटपुट की वर्तमान एजेंट आउटपुट से तुलना करें।

कैनरी परिनियोजन: उत्पादन ट्रैफ़िक का 5-10% नए एजेंट संस्करण पर रूट करें। कैनरी जनसंख्या बनाम नियंत्रण जनसंख्या पर गुणवत्ता मेट्रिक्स की निगरानी करें। यदि मेट्रिक्स में सुधार होता है या रुक जाता है तो आगे रोल करें, यदि वे ख़राब होते हैं तो पीछे रोल करें।

चैंपियन/चैलेंजर: वर्तमान उत्पादन एजेंट "चैंपियन" है। नए एजेंट संस्करण "चुनौतीपूर्ण" हैं। चैंपियन बनने से पहले चैलेंजर्स को गोल्डन डेटासेट पर सांख्यिकीय रूप से महत्वपूर्ण सुधार साबित करना होगा।

रोलबैक ट्रिगर्स: स्वचालित रोलबैक ट्रिगर्स को परिभाषित करें - यदि कैनरी की सटीकता सीमा से नीचे गिर जाती है या मानव ओवरराइड दर सीमा से ऊपर बढ़ जाती है, तो स्वचालित रूप से चैंपियन पर वापस आ जाता है।

अक्सर पूछे जाने वाले प्रश्न

हमें उत्पादन में कितनी बार गोल्डन डेटासेट मूल्यांकन चलाना चाहिए?

प्रत्येक परिनियोजन (मॉडल संस्करण परिवर्तन सहित), साप्ताहिक रूप से स्वास्थ्य जांच के रूप में चलाएं, और जब निगरानी में विसंगतियों का पता चले तो तुरंत चलाएं। उच्च-दांव वाले एजेंटों (वित्तीय निर्णय, चिकित्सा दस्तावेज़ीकरण) के लिए, प्रतिदिन दौड़ें। स्वचालित सीआई/सीडी पाइपलाइन प्रत्येक कोड परिवर्तन पर स्वचालित रूप से गोल्डन डेटासेट मूल्यांकन को ट्रिगर कर सकती हैं।

जब एलएलएम प्रदाता चुपचाप मॉडल को अपडेट करता है तो हम कैसे पता लगाते हैं?

प्रतिक्रिया विशेषताओं की निगरानी करें जो स्थिर होनी चाहिए: औसत प्रतिक्रिया लंबाई, प्रारूप अनुपालन दर, आत्मविश्वास स्कोर वितरण और विलंबता प्रोफ़ाइल। इन मेट्रिक्स में कोई भी महत्वपूर्ण परिवर्तन सटीकता प्रभाव को मापने के लिए एक सुनहरे डेटासेट मूल्यांकन को ट्रिगर करता है। कुछ प्रदाता मॉडल संस्करण की पेशकश करते हैं जो एक विशिष्ट संस्करण पर पिन करता है - जहां उपलब्ध हो वहां इसका उपयोग करें।

उत्पादन एआई एजेंटों के लिए स्वीकार्य सटीकता सीमा क्या है?

यह पूरी तरह से उपयोग के मामले और त्रुटियों की लागत पर निर्भर करता है। स्वायत्त वित्तीय निर्णय लेने वाले एजेंटों के लिए, आमतौर पर 98%+ सटीकता की आवश्यकता होती है। ऐसे ड्राफ्ट बनाने वाले एजेंटों के लिए जिनकी समीक्षा मनुष्य करता है, 85-90% अक्सर स्वीकार्य होता है क्योंकि मनुष्य त्रुटियों को पकड़ लेता है। आंतरिक विश्लेषण उत्पन्न करने वाले एजेंटों के लिए जहां त्रुटियां कम जोखिम वाली होती हैं, 80% पर्याप्त हो सकता है। अपनी सीमा को त्रुटि लागत विश्लेषण के आधार पर परिभाषित करें, मनमाने बेंचमार्क के आधार पर नहीं।

हम एजेंट निष्पादन के निशान संग्रहीत करने के लिए जीडीपीआर और डेटा गोपनीयता आवश्यकताओं को कैसे संभालते हैं?

ओपनक्लाव का ट्रेस सिस्टम भंडारण से पहले पीआईआई रिडक्शन का समर्थन करता है - कॉन्फ़िगर करें कि ट्रेस कॉन्फ़िगरेशन में कौन से फ़ील्ड को रिडक्ट किया जाए। डेटा न्यूनतमकरण आवश्यकताओं का अनुपालन करने के लिए ट्रेस को कॉन्फ़िगर करने योग्य अवधारण अवधि के साथ संग्रहीत किया जाता है। ईयू-आधारित परिनियोजन के लिए, ट्रेस स्टोरेज को केवल ईयू क्षेत्रों में कॉन्फ़िगर किया जा सकता है। व्यक्ति जीडीपीआर राइट-टू-इरेज़र प्रावधानों के तहत अपने डेटा को निशानों से हटाने का अनुरोध कर सकते हैं।

प्रभावी गुणवत्ता निगरानी के लिए हमें आवश्यक मानव समीक्षा नमूनाकरण दर क्या है?

अधिकांश एजेंटों के लिए, उत्पादन आउटपुट का 2-5% नमूनाकरण सांख्यिकीय रूप से महत्वपूर्ण गुणवत्ता निगरानी प्रदान करता है। उच्च-मूल्य या उच्च-जोखिम वाले एजेंटों के लिए, 10-20% तक बढ़ाएं। समीक्षा प्रक्रिया को संरचित किया जाना चाहिए - समीक्षक सामान्य छापों के बजाय मानकीकृत रूब्रिक का उपयोग करते हैं। ओपनक्लाव का समीक्षा इंटरफ़ेस रूब्रिक के साथ नमूना आउटपुट प्रस्तुत करता है और संरचित फीडबैक कैप्चर करता है।

क्या हम किसी अन्य एलएलएम का उपयोग करके मानव समीक्षा प्रक्रिया को स्वचालित कर सकते हैं?

आंशिक रूप से। "एलएलएम जज के रूप में" पैटर्न आउटपुट प्रारूप, पूर्णता और बुनियादी तथ्यात्मक सटीकता के मूल्यांकन के लिए अच्छी तरह से काम करते हैं। वे डोमेन-विशिष्ट शुद्धता के मूल्यांकन के लिए कम अच्छी तरह से काम करते हैं (क्या अनुबंध जोखिम मूल्यांकन सही है, इसके लिए कानूनी विशेषज्ञता की आवश्यकता होती है, सामान्य एआई निर्णय की नहीं)। अंशांकन और सत्यापन के लिए पैमाने और मानव समीक्षा के लिए स्वचालित एलएलएम मूल्यांकन का उपयोग करें।

अगले चरण

एआई एजेंटों के लिए उत्पादन-ग्रेड परीक्षण और निगरानी को लागू करने के लिए एआई सिस्टम और डेवऑप्स प्रथाओं दोनों के साथ अनुभव की आवश्यकता होती है। ECOSIRE के OpenClaw कार्यान्वयन में आपके विशिष्ट एजेंट वर्कफ़्लो, पूर्व-कॉन्फ़िगर डैशबोर्ड, अलर्ट नीतियों और घटना प्रतिक्रिया रनबुक के लिए डिज़ाइन किया गया एक मॉनिटरिंग आर्किटेक्चर शामिल है।

OpenClaw समर्थन और रखरखाव सेवाओं का अन्वेषण करें चल रही निगरानी और अनुकूलन विकल्पों के बारे में जानने के लिए, या अपने वर्तमान या नियोजित OpenClaw परिनियोजन के लिए निगरानी वास्तुकला पर चर्चा करने के लिए परामर्श निर्धारित करने के लिए।

मुख्य बातें

एआई एजेंट परीक्षण के लिए कार्यात्मक परीक्षण (सही आउटपुट) और व्यवहार परीक्षण (लगातार तर्क) दोनों की आवश्यकता होती है

जब मॉडल अपडेट होते हैं तो रिग्रेशन परीक्षण महत्वपूर्ण होता है - मान लें कि व्यवहार बदल जाएगा जब तक कि अन्यथा साबित न हो जाए

उत्पादन निगरानी को केवल उपलब्धता और विलंबता ही नहीं, बल्कि सटीकता मेट्रिक्स को भी ट्रैक करना चाहिए

टोकन उपयोग और लागत निगरानी अप्रत्याशित बिलिंग स्पाइक्स को रोकती है

एजेंट आउटपुट में विसंगति का पता लगाने से व्यावसायिक परिणामों को प्रभावित करने से पहले सटीकता में गिरावट आती है

मानव समीक्षा नमूनाकरण स्वचालित निगरानी को अंशांकित करने के लिए जमीनी सच्चाई प्रदान करता है

एआई एजेंटों के लिए घटना प्रतिक्रिया प्लेबुक पारंपरिक सॉफ्टवेयर घटनाओं से मौलिक रूप से भिन्न हैं

ए/बी परीक्षण ढांचा त्वरित परिवर्तनों और मॉडल उन्नयन के सुरक्षित मूल्यांकन को सक्षम बनाता है

एआई एजेंट परीक्षण अलग क्यों है

प्री-प्रोडक्शन टेस्टिंग फ्रेमवर्क

कौशल के लिए यूनिट परीक्षण

अनुबंध समीक्षा कौशल के लिए परीक्षण संरचना:

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

प्रत्येक परीक्षण के लिए मूल्यांकन मानदंड:

याद करें (क्या एजेंट को पता चला कि वहां क्या था?)
परिशुद्धता (क्या एजेंट ने केवल प्रासंगिक वस्तुओं को चिह्नित किया था?)
जोखिम मूल्यांकन की सटीकता (क्या जोखिम स्तर उचित है?)
अनुशंसित कार्यों की पूर्णता
आउटपुट प्रारूप अनुपालन (आवश्यक फ़ील्ड मौजूद, सही संरचना)

गोल्डन डेटासेट परीक्षण

गोल्डन डेटासेट निर्माण:

उत्पादन ट्रैफ़िक से 200 वास्तविक इनपुट एकत्र करें (यदि आवश्यक हो तो अज्ञात)
डोमेन विशेषज्ञों से प्रत्येक के लिए सही आउटपुट की समीक्षा और व्याख्या करने को कहें
किनारे के मामलों, असामान्य इनपुट और सामान्य त्रुटि पैटर्न को कवर करने के लिए डेटासेट को स्तरीकृत करें
गोल्डन डेटासेट के विरुद्ध आधारभूत सटीकता मेट्रिक्स स्थापित करें
बेसलाइन के नीचे किसी भी प्रतिगमन को परिनियोजन अवरोधक के रूप में मानें

एकीकरण परीक्षण

एकीकरण सहित संपूर्ण सिस्टम में शुरू से अंत तक एजेंट व्यवहार का परीक्षण करें:

एकीकरण परीक्षण परिदृश्य:

एजेंट ईआरपी से पढ़ता है, डेटा संसाधित करता है, वापस लिखता है - डेटा अखंडता को सत्यापित करता है
एजेंट बाहरी एपीआई को कॉल करता है, सफलता और विफलता प्रतिक्रियाओं को संभालता है
मल्टी-एजेंट वर्कफ़्लो में एजेंट दूसरे एजेंट के साथ समन्वय करता है
एजेंट टाइमआउट, दर सीमा और एपीआई अनुपलब्धता को शालीनता से संभालता है
एजेंट ऐसे आउटपुट उत्पन्न करता है जो डाउनस्ट्रीम व्यावसायिक प्रक्रियाओं को सही ढंग से ट्रिगर करता है

सिम्युलेटेड विफलता परीक्षण:

बाहरी एपीआई कॉल में टाइमआउट विफलताओं को इंजेक्ट करें
विकृत या गुम डेटा प्रदान करें
मॉडल प्रदाता अनुपलब्धता का अनुकरण करें
जब एजेंट कार्य पूरा नहीं कर पाता तो ग्रेसफुल डिग्रेडेशन का परीक्षण करें

उत्पादन निगरानी वास्तुकला

एआई एजेंट मॉनिटरिंग के चार स्तंभ

स्तंभ 1: परिचालन स्वास्थ्य (मानक सॉफ्टवेयर निगरानी)

अपटाइम और उपलब्धता
प्रति निष्पादन विलंबता (P50, P95, P99)
त्रुटि दर (एजेंट क्रैश, हैंडल न किए गए अपवाद, एपीआई विफलताएं)
कतार की गहराई और थ्रूपुट
संसाधन उपयोग (सीपीयू, मेमोरी, एपीआई समवर्ती)

स्तंभ 2: आउटपुट गुणवत्ता (एआई-विशिष्ट निगरानी)

नमूना आउटपुट पर सटीकता दर (मानव या एलएलएम-आकलित)
मतिभ्रम का पता लगाना (ऐसे आउटपुट जिनमें दी गई संदर्भ में जानकारी नहीं है)
प्रारूप अनुपालन दर (आउटपुट जो आवश्यक संरचना को पूरा करते हैं)
आत्मविश्वास स्कोर वितरण (एजेंट जो अचानक कम आत्मविश्वास संकेत गिरावट व्यक्त करते हैं)
कार्य पूर्णता दर (एजेंट सफलतापूर्वक पूर्ण आउटपुट उत्पन्न करता है बनाम त्रुटि या अपूर्ण प्रतिक्रिया देता है)

स्तंभ 3: व्यावसायिक प्रभाव (परिणाम की निगरानी)

डाउनस्ट्रीम कार्रवाई की सफलता दर (सफलतापूर्वक दिए गए ऑर्डर, सही तरीके से मंजूरी आदि)
मानव ओवरराइड दर (कितनी बार मनुष्य एजेंट के निर्णयों को ओवरराइड कर रहे हैं)
ग्राहक-सामना करने वाले एजेंटों के लिए ग्राहक संतुष्टि (CSAT, NPS)
अपवाद दर (इनपुट मानव समीक्षा के लिए बढ़ाए गए)
प्रक्रिया चक्र समय (अंत-से-अंत कार्य पूरा होने का समय)

स्तंभ 4: लागत (टोकन और एपीआई लागत निगरानी)

प्रति निष्पादन टोकन खपत (इनपुट + आउटपुट)
प्रति सफल कार्य समापन की लागत
असंगत टोकन उपयोग (औसत सिग्नल प्रॉम्प्ट इंजेक्शन या संदर्भ प्रदूषण की तुलना में काफी अधिक टोकन का उपभोग करने वाले निष्पादन)
दैनिक/साप्ताहिक लागत प्रवृत्ति बनाम पूर्वानुमान

अवलोकनीयता कार्यान्वयन

निष्पादन आईडी और टाइमस्टैम्प
इनपुट डेटा (पीआईआई रिडक्शन लागू होने के साथ)
संदर्भ पुनर्प्राप्त (आरएजी अंश, पूर्व वार्तालाप मोड़)
पूर्ण संकेत एलएलएम को भेजा गया
एलएलएम प्रतिक्रिया
प्रसंस्करण के बाद के चरण
अंतिम आउटपुट
टोकन गिनती और लागत
कुल निष्पादन समय
कोई अपवाद या वृद्धि

ट्रेस नमूनाकरण रणनीति:

उच्च मूल्य वाले लेनदेन का 100% नमूना (> $X मौद्रिक प्रभाव)
अपवादों और वृद्धि का 100% नमूना
गुणवत्ता निगरानी के लिए नियमित लेनदेन का 5-10% नमूना
समस्याओं की रिपोर्ट करने वाले ग्राहकों के लिए 100% आउटपुट का नमूना

डैशबोर्ड डिज़ाइन

वास्तविक समय संचालन पैनल:

सक्रिय निष्पादन
कतार की गहराई
निष्पादन दर (अंतिम 5 मिनट बनाम बेसलाइन)
त्रुटि दर (अंतिम 5 मिनट)
P95 विलंबता

गुणवत्ता ट्रेंड पैनल (24 घंटे का दृश्य):

सटीकता दर प्रवृत्ति (नमूना मूल्यांकन से)
मानव ओवरराइड दर प्रवृत्ति
अपवाद/वृद्धि दर की प्रवृत्ति
आत्मविश्वास स्कोर वितरण

लागत पैनल:

आज की टोकन खपत बनाम पूर्वानुमान
प्रति सफल कार्य की लागत (रुझान)
असंगत निष्पादन (बाहरी टोकन खपत)
साप्ताहिक लागत प्रक्षेपण

व्यावसायिक परिणाम पैनल:

वर्कफ़्लो प्रकार के अनुसार कार्य पूर्णता दर
डाउनस्ट्रीम सफलता दर
ग्राहक संतुष्टि (यदि मापा जाए)
संसाधित मात्रा (पिछली अवधि की तुलना में)

बहाव का पता लगाना

इनपुट वितरण निगरानी

शब्दावली बहाव (नए शब्द दिखाई दे रहे हैं जो प्रशिक्षण डेटा में नहीं थे)
इनपुट लंबाई वितरण परिवर्तन (असामान्य रूप से लंबे या छोटे इनपुट)
इनपुट में भाषा या प्रारूप परिवर्तन
दस्तावेज़ प्रसंस्करण पाइपलाइनों में दिखाई देने वाले नए दस्तावेज़ प्रकार

मॉडल संस्करण परिवर्तन का पता लगाना

प्रतिक्रिया लंबाई वितरण परिवर्तन
प्रारूप अनुपालन दर में परिवर्तन
विलंबता प्रोफ़ाइल बदल जाती है
कॉन्फिडेंस स्कोर वितरण में बदलाव

संकल्पना बहाव

कारण कोड द्वारा मानव ओवरराइड दर (किसी विशिष्ट कारण के लिए बढ़ती ओवरराइड उस क्षेत्र में अवधारणा बहाव को इंगित करती है)
त्रुटि प्रकार वितरण परिवर्तन
अपवाद वृद्धि के कारण

एआई एजेंटों के लिए घटना प्रतिक्रिया

घटना की गंभीरता का स्तर:

स्तर	परिभाषा	प्रतिक्रिया समय	कार्रवाई
पी1	वित्तीय या सुरक्षा निर्णयों को प्रभावित करने वाले व्यवस्थित रूप से गलत आउटपुट देने वाला एजेंट	तत्काल	एजेंट को अक्षम करें, मैन्युअल फ़ॉलबैक
पी2	सटीकता में गिरावट >बेसलाइन से 10% नीचे	30 मिनट	सचेत करें, मूल कारण का मूल्यांकन करें, अक्षम करने पर विचार करें
पी3	अपवाद दर बढ़ी, गुणवत्ता सीमा रेखा	2 घंटे	जांच करें, बारीकी से निगरानी करें
पी4	प्रदर्शन में गिरावट आई लेकिन स्वीकार्य सीमा के भीतर	अगला कारोबारी दिन	अगले पुनरावृत्ति चक्र के लिए लॉग इन करें

पी1 घटना प्रतिक्रिया प्लेबुक:

पता लगाएं: निगरानी प्रणाली से स्वचालित अलर्ट ट्रिगर
आकलन करें (5 मिनट): हाल के निष्पादन की समीक्षा करें, त्रुटि पैटर्न की पहचान करें
समाहित (10 मिनट): मैन्युअल फ़ॉलबैक प्रक्रिया पर स्विच करें, यदि आवश्यक हो तो एजेंट को अक्षम करें
निदान (30-60 मिनट): मूल कारण की पहचान करें (मॉडल परिवर्तन, इनपुट वितरण बदलाव, शीघ्र प्रतिगमन, एकीकरण विफलता)
उपचार: समाधान लागू करें (शीघ्र अद्यतन, मॉडल रोलबैक, इनपुट सत्यापन परिवर्तन, एकीकरण सुधार)
मान्य करें: निश्चित एजेंट के विरुद्ध गोल्डन डेटासेट मूल्यांकन चलाएँ
पुनर्स्थापित करें: उन्नत अलर्ट स्थिति में निगरानी के साथ एजेंट को पुनः सक्षम करें
पोस्टमॉर्टम: 48 घंटों के भीतर दस्तावेज़ - क्या विफल हुआ, क्यों, पुनरावृत्ति को कैसे रोका जाए

एजेंट सुधार के लिए ए/बी परीक्षण

अक्सर पूछे जाने वाले प्रश्न

हमें उत्पादन में कितनी बार गोल्डन डेटासेट मूल्यांकन चलाना चाहिए?

जब एलएलएम प्रदाता चुपचाप मॉडल को अपडेट करता है तो हम कैसे पता लगाते हैं?

उत्पादन एआई एजेंटों के लिए स्वीकार्य सटीकता सीमा क्या है?

Testing and Monitoring AI Agents in Production

एआई एजेंट परीक्षण अलग क्यों है

प्री-प्रोडक्शन टेस्टिंग फ्रेमवर्क

कौशल के लिए यूनिट परीक्षण

गोल्डन डेटासेट परीक्षण

एकीकरण परीक्षण

उत्पादन निगरानी वास्तुकला

एआई एजेंट मॉनिटरिंग के चार स्तंभ

अवलोकनीयता कार्यान्वयन

डैशबोर्ड डिज़ाइन

बहाव का पता लगाना

इनपुट वितरण निगरानी

मॉडल संस्करण परिवर्तन का पता लगाना

संकल्पना बहाव

एआई एजेंटों के लिए घटना प्रतिक्रिया

एजेंट सुधार के लिए ए/बी परीक्षण

अक्सर पूछे जाने वाले प्रश्न

अगले चरण

इंटेलिजेंट एआई एजेंट बनाएं

संबंधित लेख

25 Business Process Automation Examples That Actually Work in 2026 (From a Team Running Them in Production)

Building an OpenClaw Skill That Runs Your Shopify Store: Step-by-Step Tutorial

OpenClaw vs Zapier vs n8n (2026): Agents vs Workflows — Which Automation Layer Do You Need?

Performance & Scalability से और अधिक

Shopify Speed Optimization: A Technical Checklist That Actually Moves Core Web Vitals (2026)

Technical SEO Audit Checklist 2026: 47 Checks We Run on Every Client Site

Odoo 19 HR: Skills Matrix, Career Plans, Performance Cycles

Odoo 19 Performance Benchmarks: PostgreSQL 17 Tuning Numbers

OpenClaw Cost Optimization and Token Efficiency at Scale

Power BI Incremental Refresh for Tables Over 10 Million Rows

Testing and Monitoring AI Agents in Production

एआई एजेंट परीक्षण अलग क्यों है

प्री-प्रोडक्शन टेस्टिंग फ्रेमवर्क

कौशल के लिए यूनिट परीक्षण

गोल्डन डेटासेट परीक्षण

एकीकरण परीक्षण

उत्पादन निगरानी वास्तुकला

एआई एजेंट मॉनिटरिंग के चार स्तंभ

अवलोकनीयता कार्यान्वयन

डैशबोर्ड डिज़ाइन

बहाव का पता लगाना

इनपुट वितरण निगरानी

मॉडल संस्करण परिवर्तन का पता लगाना

संकल्पना बहाव

एआई एजेंटों के लिए घटना प्रतिक्रिया

एजेंट सुधार के लिए ए/बी परीक्षण

अक्सर पूछे जाने वाले प्रश्न

अगले चरण

इंटेलिजेंट एआई एजेंट बनाएं

संबंधित लेख

25 Business Process Automation Examples That Actually Work in 2026 (From a Team Running Them in Production)

Building an OpenClaw Skill That Runs Your Shopify Store: Step-by-Step Tutorial

OpenClaw vs Zapier vs n8n (2026): Agents vs Workflows — Which Automation Layer Do You Need?

Performance & Scalability से और अधिक

Shopify Speed Optimization: A Technical Checklist That Actually Moves Core Web Vitals (2026)

Technical SEO Audit Checklist 2026: 47 Checks We Run on Every Client Site

Odoo 19 HR: Skills Matrix, Career Plans, Performance Cycles

Odoo 19 Performance Benchmarks: PostgreSQL 17 Tuning Numbers

OpenClaw Cost Optimization and Token Efficiency at Scale

Power BI Incremental Refresh for Tables Over 10 Million Rows