हमारी Performance & Scalability श्रृंखला का हिस्सा
पूरी गाइड पढ़ेंउत्पादन में एआई एजेंट को तैनात करना कार्यान्वयन का अंत नहीं है - यह एक परिचालन अनुशासन की शुरुआत है जो पारंपरिक सॉफ्टवेयर के लिए मौजूद नहीं है। पारंपरिक एप्लिकेशन निश्चित रूप से विफल हो जाते हैं: समान इनपुट दिए जाने पर, आपको वही (गलत) आउटपुट मिलता है। एआई एजेंट संभावित रूप से विफल हो जाते हैं: एक ही इनपुट 97% समय में सही आउटपुट देता है और 3% बार सूक्ष्म रूप से गलत आउटपुट देता है, और मॉडल अपडेट होने, इनपुट वितरण में बदलाव और व्यावसायिक नियम विकसित होने पर 3% परिवर्तन होता है।
यह मार्गदर्शिका OpenClaw कार्यान्वयन के लिए विशिष्ट पैटर्न के साथ, तैनाती से पहले AI एजेंटों के परीक्षण और उत्पादन में उनकी निरंतर निगरानी के लिए संपूर्ण परिचालन ढांचे को शामिल करती है।
मुख्य बातें
- एआई एजेंट परीक्षण के लिए कार्यात्मक परीक्षण (सही आउटपुट) और व्यवहार परीक्षण (लगातार तर्क) दोनों की आवश्यकता होती है
- जब मॉडल अपडेट होते हैं तो रिग्रेशन परीक्षण महत्वपूर्ण होता है - मान लें कि व्यवहार बदल जाएगा जब तक कि अन्यथा साबित न हो जाए
- उत्पादन निगरानी को केवल उपलब्धता और विलंबता ही नहीं, बल्कि सटीकता मेट्रिक्स को भी ट्रैक करना चाहिए
- टोकन उपयोग और लागत निगरानी अप्रत्याशित बिलिंग स्पाइक्स को रोकती है
- एजेंट आउटपुट में विसंगति का पता लगाने से व्यावसायिक परिणामों को प्रभावित करने से पहले सटीकता में गिरावट आती है
- मानव समीक्षा नमूनाकरण स्वचालित निगरानी को अंशांकित करने के लिए जमीनी सच्चाई प्रदान करता है
- एआई एजेंटों के लिए घटना प्रतिक्रिया प्लेबुक पारंपरिक सॉफ्टवेयर घटनाओं से मौलिक रूप से भिन्न हैं
- ए/बी परीक्षण ढांचा त्वरित परिवर्तनों और मॉडल उन्नयन के सुरक्षित मूल्यांकन को सक्षम बनाता है
एआई एजेंट परीक्षण अलग क्यों है
एआई एजेंटों के परीक्षण के लिए पारंपरिक सॉफ़्टवेयर के परीक्षण से मौलिक रूप से भिन्न मानसिकता की आवश्यकता होती है। पारंपरिक सॉफ़्टवेयर परीक्षण में, आप परीक्षण मामले लिखते हैं, इनपुट प्रदान करते हैं, और अपेक्षित मानों के विरुद्ध आउटपुट सत्यापित करते हैं। यदि परीक्षण लगातार उत्तीर्ण होता है, तो सॉफ्टवेयर सही है।
एआई एजेंट इस तरह से काम नहीं करते हैं। उनके आउटपुट संभाव्य हैं - वे सही, थोड़े अलग या पूरी तरह से गलत हो सकते हैं, और परिणामों की संभाव्यता वितरण मॉडल संस्करण, प्रदान किए गए संदर्भ और इनपुट के विशिष्ट वाक्यांश पर निर्भर करती है। तीन चुनौतियाँ पारंपरिक परीक्षण को अपर्याप्त बनाती हैं:
गैर-नियतिवाद: एक ही प्रॉम्प्ट को दो बार चलाने से अलग-अलग आउटपुट मिल सकते हैं। परीक्षणों को एक सीमा के भीतर आउटपुट गुणवत्ता का मूल्यांकन करना चाहिए, सटीक समानता का नहीं।
मॉडल संस्करण संवेदनशीलता: जब आपका एलएलएम प्रदाता एक नया मॉडल संस्करण जारी करता है, तो आपके एजेंट का व्यवहार ऐसे तरीकों से बदल सकता है जो तुरंत स्पष्ट नहीं होते हैं। एक मॉडल जो आपके कार्य पर 94% सटीक था, वह 96% तक सुधर सकता है या 91% तक ख़राब हो सकता है - आपको इसका पता लगाने के लिए तंत्र की आवश्यकता है।
संदर्भ निर्भरता: एजेंट का व्यवहार काफी हद तक दिए गए संदर्भ (पुनर्प्राप्त दस्तावेज़, बातचीत का इतिहास, सिस्टम निर्देश) पर निर्भर करता है। संदर्भ असेंबली में छोटे परिवर्तन आउटपुट गुणवत्ता को महत्वपूर्ण रूप से प्रभावित कर सकते हैं।
प्री-प्रोडक्शन टेस्टिंग फ्रेमवर्क
कौशल के लिए यूनिट परीक्षण
प्रत्येक ओपनक्लॉ कौशल में एक परीक्षण सूट होना चाहिए जो इनपुट के प्रतिनिधि नमूने के साथ उसके व्यवहार को मान्य करता है। ये परीक्षण मानक अभिकथन-बराबर परीक्षण नहीं हैं - वे एक मूल्यांकन ढांचे का उपयोग करते हैं जो आउटपुट गुणवत्ता का स्कोर करता है।
अनुबंध समीक्षा कौशल के लिए परीक्षण संरचना:
class ContractReviewSkillTests:
def test_identifies_indemnification_clause(self):
# Provide sample contract containing indemnification clause
# Assert: clause is identified, page number is correct
# Assert: risk level is "high" for unlimited indemnification
# Assert: recommended action is present
def test_handles_missing_clause(self):
# Provide contract without limitation of liability clause
# Assert: missing clause is flagged
# Assert: recommended action is to add clause
def test_handles_unusual_clause_language(self):
# Provide contract with atypical but valid indemnification language
# Assert: clause is still identified (recall test)
# Assert: unusual language is flagged for review
प्रत्येक परीक्षण के लिए मूल्यांकन मानदंड:
- याद करें (क्या एजेंट को पता चला कि वहां क्या था?)
- परिशुद्धता (क्या एजेंट ने केवल प्रासंगिक वस्तुओं को चिह्नित किया था?)
- जोखिम मूल्यांकन की सटीकता (क्या जोखिम स्तर उचित है?)
- अनुशंसित कार्यों की पूर्णता
- आउटपुट प्रारूप अनुपालन (आवश्यक फ़ील्ड मौजूद, सही संरचना)
गोल्डन डेटासेट परीक्षण
मानव-सत्यापित अपेक्षित आउटपुट के साथ 50-200 प्रतिनिधि इनपुट का एक सुनहरा डेटासेट बनाए रखें। प्रत्येक उत्पादन परिनियोजन से पहले, इस डेटासेट के विरुद्ध एजेंट चलाएँ और सटीकता मेट्रिक्स की गणना करें। आपकी सीमा से कम सटीकता वाली तैनाती अवरुद्ध है।
गोल्डन डेटासेट निर्माण:
- उत्पादन ट्रैफ़िक से 200 वास्तविक इनपुट एकत्र करें (यदि आवश्यक हो तो अज्ञात)
- डोमेन विशेषज्ञों से प्रत्येक के लिए सही आउटपुट की समीक्षा और व्याख्या करने को कहें
- किनारे के मामलों, असामान्य इनपुट और सामान्य त्रुटि पैटर्न को कवर करने के लिए डेटासेट को स्तरीकृत करें
- गोल्डन डेटासेट के विरुद्ध आधारभूत सटीकता मेट्रिक्स स्थापित करें
- बेसलाइन के नीचे किसी भी प्रतिगमन को परिनियोजन अवरोधक के रूप में मानें
गोल्डन डेटासेट के लिए स्वचालित मूल्यांकन: एक एलएलएम को मूल्यांकनकर्ता के रूप में नियुक्त करें या प्रशिक्षित करें - एक अलग एलएलएम कॉल जो एजेंट के आउटपुट और मानव-सत्यापित अपेक्षित आउटपुट लेता है और एक समानता/शुद्धता स्कोर उत्पन्न करता है। यह "एलएलएम ऐज़ जज" पैटर्न है। सीमा रेखा के मामलों की मानवीय समीक्षा के साथ, यह लगातार चलने वाले स्वर्ण डेटासेट मूल्यांकन को मापता है।
एकीकरण परीक्षण
एकीकरण सहित संपूर्ण सिस्टम में शुरू से अंत तक एजेंट व्यवहार का परीक्षण करें:
एकीकरण परीक्षण परिदृश्य:
- एजेंट ईआरपी से पढ़ता है, डेटा संसाधित करता है, वापस लिखता है - डेटा अखंडता को सत्यापित करता है
- एजेंट बाहरी एपीआई को कॉल करता है, सफलता और विफलता प्रतिक्रियाओं को संभालता है
- मल्टी-एजेंट वर्कफ़्लो में एजेंट दूसरे एजेंट के साथ समन्वय करता है
- एजेंट टाइमआउट, दर सीमा और एपीआई अनुपलब्धता को शालीनता से संभालता है
- एजेंट ऐसे आउटपुट उत्पन्न करता है जो डाउनस्ट्रीम व्यावसायिक प्रक्रियाओं को सही ढंग से ट्रिगर करता है
सिम्युलेटेड विफलता परीक्षण:
- बाहरी एपीआई कॉल में टाइमआउट विफलताओं को इंजेक्ट करें
- विकृत या गुम डेटा प्रदान करें
- मॉडल प्रदाता अनुपलब्धता का अनुकरण करें
- जब एजेंट कार्य पूरा नहीं कर पाता तो ग्रेसफुल डिग्रेडेशन का परीक्षण करें
उत्पादन निगरानी वास्तुकला
एआई एजेंट मॉनिटरिंग के चार स्तंभ
स्तंभ 1: परिचालन स्वास्थ्य (मानक सॉफ्टवेयर निगरानी)
- अपटाइम और उपलब्धता
- प्रति निष्पादन विलंबता (P50, P95, P99)
- त्रुटि दर (एजेंट क्रैश, हैंडल न किए गए अपवाद, एपीआई विफलताएं)
- कतार की गहराई और थ्रूपुट
- संसाधन उपयोग (सीपीयू, मेमोरी, एपीआई समवर्ती)
स्तंभ 2: आउटपुट गुणवत्ता (एआई-विशिष्ट निगरानी)
- नमूना आउटपुट पर सटीकता दर (मानव या एलएलएम-आकलित)
- मतिभ्रम का पता लगाना (ऐसे आउटपुट जिनमें दी गई संदर्भ में जानकारी नहीं है)
- प्रारूप अनुपालन दर (आउटपुट जो आवश्यक संरचना को पूरा करते हैं)
- आत्मविश्वास स्कोर वितरण (एजेंट जो अचानक कम आत्मविश्वास संकेत गिरावट व्यक्त करते हैं)
- कार्य पूर्णता दर (एजेंट सफलतापूर्वक पूर्ण आउटपुट उत्पन्न करता है बनाम त्रुटि या अपूर्ण प्रतिक्रिया देता है)
स्तंभ 3: व्यावसायिक प्रभाव (परिणाम की निगरानी)
- डाउनस्ट्रीम कार्रवाई की सफलता दर (सफलतापूर्वक दिए गए ऑर्डर, सही तरीके से मंजूरी आदि)
- मानव ओवरराइड दर (कितनी बार मनुष्य एजेंट के निर्णयों को ओवरराइड कर रहे हैं)
- ग्राहक-सामना करने वाले एजेंटों के लिए ग्राहक संतुष्टि (CSAT, NPS)
- अपवाद दर (इनपुट मानव समीक्षा के लिए बढ़ाए गए)
- प्रक्रिया चक्र समय (अंत-से-अंत कार्य पूरा होने का समय)
स्तंभ 4: लागत (टोकन और एपीआई लागत निगरानी)
- प्रति निष्पादन टोकन खपत (इनपुट + आउटपुट)
- प्रति सफल कार्य समापन की लागत
- असंगत टोकन उपयोग (औसत सिग्नल प्रॉम्प्ट इंजेक्शन या संदर्भ प्रदूषण की तुलना में काफी अधिक टोकन का उपभोग करने वाले निष्पादन)
- दैनिक/साप्ताहिक लागत प्रवृत्ति बनाम पूर्वानुमान
अवलोकनीयता कार्यान्वयन
OpenClaw अंतर्निहित निष्पादन अनुरेखण प्रदान करता है। प्रत्येक एजेंट रन एक संरचित ट्रेस उत्पन्न करता है जिसमें शामिल हैं:
- निष्पादन आईडी और टाइमस्टैम्प
- इनपुट डेटा (पीआईआई रिडक्शन लागू होने के साथ)
- संदर्भ पुनर्प्राप्त (आरएजी अंश, पूर्व वार्तालाप मोड़)
- पूर्ण संकेत एलएलएम को भेजा गया
- एलएलएम प्रतिक्रिया
- प्रसंस्करण के बाद के चरण
- अंतिम आउटपुट
- टोकन गिनती और लागत
- कुल निष्पादन समय
- कोई अपवाद या वृद्धि
जब कोई एजेंट गलत आउटपुट उत्पन्न करता है तो यह ट्रेस डेटा पोस्ट-हॉक डिबगिंग को सक्षम बनाता है। आप सटीक निष्पादन दोबारा चला सकते हैं और हर चरण देख सकते हैं।
ट्रेस नमूनाकरण रणनीति:
- उच्च मूल्य वाले लेनदेन का 100% नमूना (> $X मौद्रिक प्रभाव)
- अपवादों और वृद्धि का 100% नमूना
- गुणवत्ता निगरानी के लिए नियमित लेनदेन का 5-10% नमूना
- समस्याओं की रिपोर्ट करने वाले ग्राहकों के लिए 100% आउटपुट का नमूना
डैशबोर्ड डिज़ाइन
प्रभावी एआई एजेंट मॉनिटरिंग डैशबोर्ड पारंपरिक एप्लिकेशन डैशबोर्ड की तुलना में भिन्न जानकारी संचारित करते हैं। मुख्य पैनल:
वास्तविक समय संचालन पैनल:
- सक्रिय निष्पादन
- कतार की गहराई
- निष्पादन दर (अंतिम 5 मिनट बनाम बेसलाइन)
- त्रुटि दर (अंतिम 5 मिनट)
- P95 विलंबता
गुणवत्ता ट्रेंड पैनल (24 घंटे का दृश्य):
- सटीकता दर प्रवृत्ति (नमूना मूल्यांकन से)
- मानव ओवरराइड दर प्रवृत्ति
- अपवाद/वृद्धि दर की प्रवृत्ति
- आत्मविश्वास स्कोर वितरण
लागत पैनल:
- आज की टोकन खपत बनाम पूर्वानुमान
- प्रति सफल कार्य की लागत (रुझान)
- असंगत निष्पादन (बाहरी टोकन खपत)
- साप्ताहिक लागत प्रक्षेपण
व्यावसायिक परिणाम पैनल:
- वर्कफ़्लो प्रकार के अनुसार कार्य पूर्णता दर
- डाउनस्ट्रीम सफलता दर
- ग्राहक संतुष्टि (यदि मापा जाए)
- संसाधित मात्रा (पिछली अवधि की तुलना में)
बहाव का पता लगाना
एआई एजेंट विफलता के सबसे घातक तरीकों में से एक क्रमिक बहाव है - जैसे-जैसे इनपुट का वितरण प्रशिक्षण वितरण से दूर होता जाता है, या प्रदाता द्वारा मॉडल को अपडेट किया जाता है, एजेंट का प्रदर्शन समय के साथ धीरे-धीरे कम होता जाता है।
इनपुट वितरण निगरानी
समय के साथ अपने इनपुट डेटा वितरण के बारे में आँकड़े ट्रैक करें। महत्वपूर्ण बदलावों पर अलर्ट:
- शब्दावली बहाव (नए शब्द दिखाई दे रहे हैं जो प्रशिक्षण डेटा में नहीं थे)
- इनपुट लंबाई वितरण परिवर्तन (असामान्य रूप से लंबे या छोटे इनपुट)
- इनपुट में भाषा या प्रारूप परिवर्तन
- दस्तावेज़ प्रसंस्करण पाइपलाइनों में दिखाई देने वाले नए दस्तावेज़ प्रकार
मॉडल संस्करण परिवर्तन का पता लगाना
एलएलएम प्रदाता अपने मॉडलों को लगातार अपडेट करते रहते हैं। कुछ अपडेट मौन हैं (समान मॉडल पहचानकर्ता, अलग-अलग वजन)। इसके लिए मॉनिटर करें:
- प्रतिक्रिया लंबाई वितरण परिवर्तन
- प्रारूप अनुपालन दर में परिवर्तन
- विलंबता प्रोफ़ाइल बदल जाती है
- कॉन्फिडेंस स्कोर वितरण में बदलाव
जब इनमें से कोई भी मेट्रिक्स महत्वपूर्ण रूप से बदलता है, तो सटीकता प्रभाव को मापने के लिए तुरंत गोल्डन डेटासेट मूल्यांकन चलाएं।
संकल्पना बहाव
व्यावसायिक नियम और डोमेन ज्ञान समय के साथ बदलते हैं। 2024 मूल्य निर्धारण नियमों को लागू करने के लिए प्रशिक्षित एक एजेंट 2025 मूल्य निर्धारण नियमों के प्रभावी होने पर गलत आउटपुट देगा। मॉनिटर:
- कारण कोड द्वारा मानव ओवरराइड दर (किसी विशिष्ट कारण के लिए बढ़ती ओवरराइड उस क्षेत्र में अवधारणा बहाव को इंगित करती है)
- त्रुटि प्रकार वितरण परिवर्तन
- अपवाद वृद्धि के कारण
एआई एजेंटों के लिए घटना प्रतिक्रिया
एआई एजेंट घटनाएं पारंपरिक सॉफ्टवेयर घटनाओं से भिन्न होती हैं। विफलता अक्सर दुर्घटना नहीं होती - यह आउटपुट गुणवत्ता में गिरावट है जो व्यावसायिक परिणामों को सूक्ष्मता से प्रभावित करती है।
घटना की गंभीरता का स्तर:
| स्तर | परिभाषा | प्रतिक्रिया समय | कार्रवाई |
|---|---|---|---|
| पी1 | वित्तीय या सुरक्षा निर्णयों को प्रभावित करने वाले व्यवस्थित रूप से गलत आउटपुट देने वाला एजेंट | तत्काल | एजेंट को अक्षम करें, मैन्युअल फ़ॉलबैक |
| पी2 | सटीकता में गिरावट >बेसलाइन से 10% नीचे | 30 मिनट | सचेत करें, मूल कारण का मूल्यांकन करें, अक्षम करने पर विचार करें |
| पी3 | अपवाद दर बढ़ी, गुणवत्ता सीमा रेखा | 2 घंटे | जांच करें, बारीकी से निगरानी करें |
| पी4 | प्रदर्शन में गिरावट आई लेकिन स्वीकार्य सीमा के भीतर | अगला कारोबारी दिन | अगले पुनरावृत्ति चक्र के लिए लॉग इन करें |
पी1 घटना प्रतिक्रिया प्लेबुक:
- पता लगाएं: निगरानी प्रणाली से स्वचालित अलर्ट ट्रिगर
- आकलन करें (5 मिनट): हाल के निष्पादन की समीक्षा करें, त्रुटि पैटर्न की पहचान करें
- समाहित (10 मिनट): मैन्युअल फ़ॉलबैक प्रक्रिया पर स्विच करें, यदि आवश्यक हो तो एजेंट को अक्षम करें
- निदान (30-60 मिनट): मूल कारण की पहचान करें (मॉडल परिवर्तन, इनपुट वितरण बदलाव, शीघ्र प्रतिगमन, एकीकरण विफलता)
- उपचार: समाधान लागू करें (शीघ्र अद्यतन, मॉडल रोलबैक, इनपुट सत्यापन परिवर्तन, एकीकरण सुधार)
- मान्य करें: निश्चित एजेंट के विरुद्ध गोल्डन डेटासेट मूल्यांकन चलाएँ
- पुनर्स्थापित करें: उन्नत अलर्ट स्थिति में निगरानी के साथ एजेंट को पुनः सक्षम करें
- पोस्टमॉर्टम: 48 घंटों के भीतर दस्तावेज़ - क्या विफल हुआ, क्यों, पुनरावृत्ति को कैसे रोका जाए
एजेंट सुधार के लिए ए/बी परीक्षण
एआई एजेंटों में सुधार के लिए पूर्ण तैनाती से पहले परिवर्तनों का सुरक्षित रूप से मूल्यांकन करना आवश्यक है। ए/बी परीक्षण इसे सक्षम बनाता है:
छाया मोड परीक्षण: नए एजेंट संस्करण को उसके आउटपुट का उपयोग किए बिना उत्पादन ट्रैफ़िक पर चलाएं - ग्राहकों को प्रभावित करने से पहले अंतर को मापने के लिए छाया आउटपुट की वर्तमान एजेंट आउटपुट से तुलना करें।
कैनरी परिनियोजन: उत्पादन ट्रैफ़िक का 5-10% नए एजेंट संस्करण पर रूट करें। कैनरी जनसंख्या बनाम नियंत्रण जनसंख्या पर गुणवत्ता मेट्रिक्स की निगरानी करें। यदि मेट्रिक्स में सुधार होता है या रुक जाता है तो आगे रोल करें, यदि वे ख़राब होते हैं तो पीछे रोल करें।
चैंपियन/चैलेंजर: वर्तमान उत्पादन एजेंट "चैंपियन" है। नए एजेंट संस्करण "चुनौतीपूर्ण" हैं। चैंपियन बनने से पहले चैलेंजर्स को गोल्डन डेटासेट पर सांख्यिकीय रूप से महत्वपूर्ण सुधार साबित करना होगा।
रोलबैक ट्रिगर्स: स्वचालित रोलबैक ट्रिगर्स को परिभाषित करें - यदि कैनरी की सटीकता सीमा से नीचे गिर जाती है या मानव ओवरराइड दर सीमा से ऊपर बढ़ जाती है, तो स्वचालित रूप से चैंपियन पर वापस आ जाता है।
अक्सर पूछे जाने वाले प्रश्न
हमें उत्पादन में कितनी बार गोल्डन डेटासेट मूल्यांकन चलाना चाहिए?
प्रत्येक परिनियोजन (मॉडल संस्करण परिवर्तन सहित), साप्ताहिक रूप से स्वास्थ्य जांच के रूप में चलाएं, और जब निगरानी में विसंगतियों का पता चले तो तुरंत चलाएं। उच्च-दांव वाले एजेंटों (वित्तीय निर्णय, चिकित्सा दस्तावेज़ीकरण) के लिए, प्रतिदिन दौड़ें। स्वचालित सीआई/सीडी पाइपलाइन प्रत्येक कोड परिवर्तन पर स्वचालित रूप से गोल्डन डेटासेट मूल्यांकन को ट्रिगर कर सकती हैं।
जब एलएलएम प्रदाता चुपचाप मॉडल को अपडेट करता है तो हम कैसे पता लगाते हैं?
प्रतिक्रिया विशेषताओं की निगरानी करें जो स्थिर होनी चाहिए: औसत प्रतिक्रिया लंबाई, प्रारूप अनुपालन दर, आत्मविश्वास स्कोर वितरण और विलंबता प्रोफ़ाइल। इन मेट्रिक्स में कोई भी महत्वपूर्ण परिवर्तन सटीकता प्रभाव को मापने के लिए एक सुनहरे डेटासेट मूल्यांकन को ट्रिगर करता है। कुछ प्रदाता मॉडल संस्करण की पेशकश करते हैं जो एक विशिष्ट संस्करण पर पिन करता है - जहां उपलब्ध हो वहां इसका उपयोग करें।
उत्पादन एआई एजेंटों के लिए स्वीकार्य सटीकता सीमा क्या है?
यह पूरी तरह से उपयोग के मामले और त्रुटियों की लागत पर निर्भर करता है। स्वायत्त वित्तीय निर्णय लेने वाले एजेंटों के लिए, आमतौर पर 98%+ सटीकता की आवश्यकता होती है। ऐसे ड्राफ्ट बनाने वाले एजेंटों के लिए जिनकी समीक्षा मनुष्य करता है, 85-90% अक्सर स्वीकार्य होता है क्योंकि मनुष्य त्रुटियों को पकड़ लेता है। आंतरिक विश्लेषण उत्पन्न करने वाले एजेंटों के लिए जहां त्रुटियां कम जोखिम वाली होती हैं, 80% पर्याप्त हो सकता है। अपनी सीमा को त्रुटि लागत विश्लेषण के आधार पर परिभाषित करें, मनमाने बेंचमार्क के आधार पर नहीं।
हम एजेंट निष्पादन के निशान संग्रहीत करने के लिए जीडीपीआर और डेटा गोपनीयता आवश्यकताओं को कैसे संभालते हैं?
ओपनक्लाव का ट्रेस सिस्टम भंडारण से पहले पीआईआई रिडक्शन का समर्थन करता है - कॉन्फ़िगर करें कि ट्रेस कॉन्फ़िगरेशन में कौन से फ़ील्ड को रिडक्ट किया जाए। डेटा न्यूनतमकरण आवश्यकताओं का अनुपालन करने के लिए ट्रेस को कॉन्फ़िगर करने योग्य अवधारण अवधि के साथ संग्रहीत किया जाता है। ईयू-आधारित परिनियोजन के लिए, ट्रेस स्टोरेज को केवल ईयू क्षेत्रों में कॉन्फ़िगर किया जा सकता है। व्यक्ति जीडीपीआर राइट-टू-इरेज़र प्रावधानों के तहत अपने डेटा को निशानों से हटाने का अनुरोध कर सकते हैं।
प्रभावी गुणवत्ता निगरानी के लिए हमें आवश्यक मानव समीक्षा नमूनाकरण दर क्या है?
अधिकांश एजेंटों के लिए, उत्पादन आउटपुट का 2-5% नमूनाकरण सांख्यिकीय रूप से महत्वपूर्ण गुणवत्ता निगरानी प्रदान करता है। उच्च-मूल्य या उच्च-जोखिम वाले एजेंटों के लिए, 10-20% तक बढ़ाएं। समीक्षा प्रक्रिया को संरचित किया जाना चाहिए - समीक्षक सामान्य छापों के बजाय मानकीकृत रूब्रिक का उपयोग करते हैं। ओपनक्लाव का समीक्षा इंटरफ़ेस रूब्रिक के साथ नमूना आउटपुट प्रस्तुत करता है और संरचित फीडबैक कैप्चर करता है।
क्या हम किसी अन्य एलएलएम का उपयोग करके मानव समीक्षा प्रक्रिया को स्वचालित कर सकते हैं?
आंशिक रूप से। "एलएलएम जज के रूप में" पैटर्न आउटपुट प्रारूप, पूर्णता और बुनियादी तथ्यात्मक सटीकता के मूल्यांकन के लिए अच्छी तरह से काम करते हैं। वे डोमेन-विशिष्ट शुद्धता के मूल्यांकन के लिए कम अच्छी तरह से काम करते हैं (क्या अनुबंध जोखिम मूल्यांकन सही है, इसके लिए कानूनी विशेषज्ञता की आवश्यकता होती है, सामान्य एआई निर्णय की नहीं)। अंशांकन और सत्यापन के लिए पैमाने और मानव समीक्षा के लिए स्वचालित एलएलएम मूल्यांकन का उपयोग करें।
अगले चरण
एआई एजेंटों के लिए उत्पादन-ग्रेड परीक्षण और निगरानी को लागू करने के लिए एआई सिस्टम और डेवऑप्स प्रथाओं दोनों के साथ अनुभव की आवश्यकता होती है। ECOSIRE के OpenClaw कार्यान्वयन में आपके विशिष्ट एजेंट वर्कफ़्लो, पूर्व-कॉन्फ़िगर डैशबोर्ड, अलर्ट नीतियों और घटना प्रतिक्रिया रनबुक के लिए डिज़ाइन किया गया एक मॉनिटरिंग आर्किटेक्चर शामिल है।
OpenClaw समर्थन और रखरखाव सेवाओं का अन्वेषण करें चल रही निगरानी और अनुकूलन विकल्पों के बारे में जानने के लिए, या अपने वर्तमान या नियोजित OpenClaw परिनियोजन के लिए निगरानी वास्तुकला पर चर्चा करने के लिए परामर्श निर्धारित करने के लिए।
लेखक
ECOSIRE TeamTechnical Writing
The ECOSIRE technical writing team covers Odoo ERP, Shopify eCommerce, AI agents, Power BI analytics, GoHighLevel automation, and enterprise software best practices. Our guides help businesses make informed technology decisions.
ECOSIRE
इंटेलिजेंट एआई एजेंट बनाएं
स्वायत्त एआई एजेंटों को तैनात करें जो वर्कफ़्लो को स्वचालित करते हैं और उत्पादकता बढ़ाते हैं।
संबंधित लेख
25 Business Process Automation Examples That Actually Work in 2026 (From a Team Running Them in Production)
25 real business process automation examples across finance, sales, support, and operations — with honest notes on what AI agents, RPA, and workflows do best.
Building an OpenClaw Skill That Runs Your Shopify Store: Step-by-Step Tutorial
How to build an OpenClaw skill that manages your Shopify store via the Admin API: skill anatomy, auth scopes, webhooks, a worked sync example, and guardrails.
OpenClaw vs Zapier vs n8n (2026): Agents vs Workflows — Which Automation Layer Do You Need?
OpenClaw, Zapier, and n8n solve different problems. An honest 2026 comparison of AI agents vs workflow automation: pricing, strengths, when to combine them.
Performance & Scalability से और अधिक
Shopify Speed Optimization: A Technical Checklist That Actually Moves Core Web Vitals (2026)
A field-tested Shopify speed checklist for 2026 — what actually improves LCP, INP, and CLS on real stores, what wastes time, and how to audit apps and themes.
Technical SEO Audit Checklist 2026: 47 Checks We Run on Every Client Site
The 47-point technical SEO audit checklist we run on every client site in 2026 — crawlability, indexation, canonicals, hreflang, Core Web Vitals, and logs.
Odoo 19 HR: Skills Matrix, Career Plans, Performance Cycles
Odoo 19 HR upgrade: native skills matrix, career path planning, performance review cycles, 9-box grid, succession planning, HRIS integration.
Odoo 19 Performance Benchmarks: PostgreSQL 17 Tuning Numbers
Real-world Odoo 19 performance benchmarks: web client speed, ORM throughput, PG17 tuning settings, connection pooling, worker counts, scaling thresholds.
OpenClaw Cost Optimization and Token Efficiency at Scale
OpenClaw token cost optimization: prompt caching, model routing, response caching, batch APIs, and per-tenant cost guardrails for production agents.
Power BI Incremental Refresh for Tables Over 10 Million Rows
Power BI Incremental Refresh playbook for 10M+ row tables: partition design, RangeStart/RangeEnd, refresh policies, query folding, and DirectQuery hybrids.