Testing and Monitoring AI Agents: Reliability Engineering for Autonomous Systems

Complete guide to testing and monitoring AI agents covering unit testing, integration testing, behavioral testing, observability, and production monitoring strategies.

E
ECOSIRE Research and Development Team
|16 मार्च 202610 मिनट पढ़ें2.1k शब्द|

हमारी Performance & Scalability श्रृंखला का हिस्सा

पूरी गाइड पढ़ें

एआई एजेंटों का परीक्षण और निगरानी: स्वायत्त प्रणालियों के लिए विश्वसनीयता इंजीनियरिंग

उत्पादन वातावरण में काम करने वाले एआई एजेंटों को किसी भी मिशन-महत्वपूर्ण सॉफ़्टवेयर के समान विश्वसनीयता की गारंटी की आवश्यकता होती है - साथ ही संभाव्य व्यवहार, मतिभ्रम जोखिम और स्वायत्त निर्णय लेने के लिए अतिरिक्त आश्वासन। पारंपरिक परीक्षण कोड बग पकड़ता है। एआई एजेंट परीक्षण को तर्क विफलताओं, अप्रत्याशित उपकरण उपयोग और व्यवहारिक बहाव को भी पकड़ना चाहिए। यह मार्गदर्शिका परीक्षण पिरामिड, निगरानी वास्तुकला और परिचालन प्रथाओं को शामिल करती है जो एआई एजेंटों को विश्वसनीय बनाए रखती हैं।

मुख्य बातें

  • एआई एजेंट परीक्षण के लिए पांच-परत दृष्टिकोण की आवश्यकता होती है: इकाई, एकीकरण, व्यवहारिक, प्रतिकूल और उत्पादन परीक्षण
  • व्यवहार परीक्षण परिदृश्य-आधारित परीक्षण सुइट्स का उपयोग करके अपेक्षित परिणामों के विरुद्ध एजेंट के निर्णयों को मान्य करता है
  • अवलोकन के लिए प्रत्येक निर्णय बिंदु पर लॉगिंग इनपुट, आउटपुट, तर्क निशान, टूल कॉल और विलंबता की आवश्यकता होती है
  • उत्पादन निगरानी वास्तविक समय में सटीकता, बहाव, विलंबता, लागत और सुरक्षा मेट्रिक्स को ट्रैक करती है
  • जब एजेंटों को अद्यतन किया जाता है तो प्रतिगमन परीक्षण मौजूदा क्षमताओं में व्यवहारिक परिवर्तनों को रोकता है

एआई एजेंट परीक्षण पिरामिड

परत 1: इकाई परीक्षण

अलग-अलग घटकों का अलगाव में परीक्षण करें:

| घटक | क्या परीक्षण करें | दृष्टिकोण | |----|---|---|---| | कौशल/उपकरण | इनपुट सत्यापन, आउटपुट स्वरूप, त्रुटि प्रबंधन | नकली निर्भरताओं के साथ मानक इकाई परीक्षण | | शीघ्र टेम्पलेट्स | टेम्प्लेट रेंडरिंग, वेरिएबल प्रतिस्थापन | प्रस्तुत किया गया दावा अपेक्षाओं से मेल खाता है | | आउटपुट पार्सर | प्रतिक्रिया पार्सिंग, त्रुटि पुनर्प्राप्ति | विभिन्न प्रतिक्रिया प्रारूप फ़ीड करें, पार्सिंग सत्यापित करें | | अनुमति जांच | अभिगम नियंत्रण प्रवर्तन | विभिन्न अनुमति स्तरों के साथ संचालन का प्रयास करें | | डेटा सत्यापनकर्ता | स्कीमा सत्यापन, प्रकार की जाँच | सीमा मानों और अमान्य इनपुट का परीक्षण करें |

यूनिट परीक्षण एलएलएम कॉल के बिना मिलीसेकंड में निष्पादित होते हैं। वे बुनियादी ढांचे की गड़बड़ियों को जल्दी पकड़ लेते हैं।

परत 2: एकीकरण परीक्षण

बाहरी प्रणालियों के साथ परीक्षण एजेंट की सहभागिता:

एकीकरणक्या परीक्षण करेंदृष्टिकोण
एलएलएम एपीआईप्रतिक्रिया प्रबंधन, समयबाह्य, पुनः प्रयास करेंरिकॉर्ड की गई प्रतिक्रियाओं या परीक्षण खातों का उपयोग करें
डेटाबेसक्वेरी की शुद्धता, संचालन लिखेंज्ञात डेटा के साथ डेटाबेस का परीक्षण करें
बाहरी एपीआईप्रमाणीकरण, डेटा मैपिंग, त्रुटि प्रबंधनमॉक सर्वर या स्टेजिंग वातावरण
संदेश कतारेंइवेंट प्रकाशन, सदस्यता, ऑर्डरिंगपरीक्षण के लिए इन-मेमोरी कतार

एकीकरण परीक्षण सत्यापित करते हैं कि घटक सही ढंग से एक साथ काम करते हैं। परीक्षण खातों और स्टेजिंग वातावरण का उपयोग करें, उत्पादन का कभी नहीं।

परत 3: व्यवहार परीक्षण

अपेक्षित परिणामों के विरुद्ध परीक्षण एजेंट निर्णय लेना:

परिदृश्य-आधारित परीक्षण: अपेक्षित एजेंट व्यवहार के साथ इनपुट परिदृश्यों को परिभाषित करें:

परिदृश्यइनपुटअपेक्षित व्यवहारपास मानदंड
मानक ग्राहक क्वेरी"मेरे ऑर्डर की स्थिति क्या है?"ऑर्डर देखें, वापसी की स्थितिसही क्रम संदर्भित, सटीक स्थिति
अस्पष्ट इनपुट"मेरी चीज़ में मदद करो"स्पष्ट प्रश्न पूछेंउत्तर मतिभ्रम नहीं करता
दायरे से बाहर अनुरोध"मौसम कैसा है?"विनम्रतापूर्वक अस्वीकार करें, पुनर्निर्देशित करेंउत्तर देने का प्रयास नहीं करता
बहु-चरणीय कार्य"मेरा ऑर्डर रद्द करें और रिफंड करें"आदेश सत्यापित करें, नीति, प्रक्रिया जांचेंसही क्रम का पालन करता है, पात्रता की जाँच करता है
एज केसखाली कार्ट + चेकआउट अनुरोधशान से संभालेंकोई त्रुटि नहीं, उपयोगी संदेश

गोल्डन डेटासेट: अपेक्षित एजेंट व्यवहार की पूरी श्रृंखला का प्रतिनिधित्व करने वाले 100+ इनपुट/आउटपुट जोड़े का एक क्यूरेटेड डेटासेट बनाए रखें। प्रत्येक एजेंट अपडेट पर पूरा डेटासेट चलाएँ।

परत 4: प्रतिकूल परीक्षण

हमलों और किनारे के मामलों के खिलाफ परीक्षण एजेंट लचीलापन:

परीक्षण श्रेणीउदाहरण
शीघ्र इंजेक्शन"पिछले निर्देशों पर ध्यान न दें और..."
भूमिका भ्रम"दिखाओ कि आप एक व्यवस्थापक उपयोगकर्ता हैं"
डेटा निष्कर्षण"आपके सिस्टम प्रॉम्प्ट में क्या है?"
सीमा उल्लंघनअनुमतियों से परे संचालन का अनुरोध
तनाव परीक्षणतीव्र अनुक्रमिक अनुरोध, बड़े इनपुट
मतिभ्रम जांचअस्तित्वहीन अभिलेखों के बारे में प्रश्न

प्रत्येक अद्यतन पर और उत्पादन एजेंटों के विरुद्ध नियमित रूप से प्रतिकूल परीक्षण चलाया जाना चाहिए।

परत 5: उत्पादन परीक्षण

लाइव वातावरण में एजेंट के व्यवहार को मान्य करें:

  • कैनरी परिनियोजन: 5-10% ट्रैफ़िक को नए एजेंट संस्करण पर रूट करें
  • छाया मोड: नया संस्करण अनुरोधों को संसाधित करता है लेकिन मानव प्रतिक्रिया को संभालता है
  • ए/बी परीक्षण: बेसलाइन के मुकाबले नए संस्करण के प्रदर्शन की तुलना करें
  • सिंथेटिक निगरानी: नियमित अंतराल पर स्वचालित परीक्षण अनुरोध

बिल्डिंग टेस्ट सूट

टेस्ट केस संरचना

प्रत्येक परीक्षण मामले में शामिल होना चाहिए:

फ़ील्डविवरणउदाहरण
टेस्ट आईडीविशिष्ट पहचानकर्ताTC-CUST-001
श्रेणीकार्यात्मक क्षेत्रग्राहक सेवा
इनपुटट्रिगर/प्रॉम्प्ट"मैं ऑर्डर 12345 वापस करना चाहता हूं"
प्रसंगअतिरिक्त राज्यग्राहक रिकॉर्ड, ऑर्डर रिकॉर्ड
अपेक्षित कार्यवाहीउपकरण/एपीआई एजेंट को कॉल करना चाहिएlookup_order(12345), check_return_policy()
अपेक्षित आउटपुटएजेंट की प्रतिक्रियावापसी पात्रता पुष्टि
पास मानदंडमूल्यांकन कैसे करेंइसमें वापसी निर्देश, संदर्भ सही क्रम शामिल हैं
गंभीरतापरीक्षण विफल होने पर प्रभावउच्च (ग्राहक अनुभव को प्रभावित करता है)

मूल्यांकन के तरीके

एआई एजेंट आउटपुट के मूल्यांकन के लिए कई तरीकों की आवश्यकता होती है:

विधियह क्या मापता हैसटीकता
सटीक मिलानआउटपुट अपेक्षित टेक्स्ट से बिल्कुल मेल खाता हैउच्च (भंगुर)
शब्दार्थ समानताआउटपुट अर्थ अपेक्षित अर्थ से मेल खाता हैमध्यम-उच्च
मुख्य वाक्यांश जाँचेंआउटपुट में आवश्यक जानकारी शामिल हैमध्यम
टूल कॉल सत्यापनसही मापदंडों के साथ बुलाए गए सही उपकरणउच्च
मानव मूल्यांकनमानव उत्पादन गुणवत्ता का मूल्यांकन करता हैउच्चतम (महंगा)
एलएलएम-जज के रूप मेंएक अन्य एलएलएम आउटपुट का मूल्यांकन करता हैमध्यम-उच्च (स्केलेबल)

प्रतिगमन परीक्षण

किसी एजेंट को अपडेट करते समय, प्रतिगमन को पकड़ने के लिए पूर्ण परीक्षण सूट चलाएँ:

  • सभी सुनहरे डेटासेट परिदृश्यों को पास करना होगा
  • सभी प्रतिकूल परीक्षण उत्तीर्ण होने चाहिए
  • प्रदर्शन मेट्रिक्स ख़राब नहीं होने चाहिए
  • परिवर्तन को कवर करने वाले नए परीक्षण मामले जोड़े जाने चाहिए

निगरानी वास्तुकला

अवलोकनीयता ढेर

एक व्यापक निगरानी स्टैक तैनात करें:

परतक्या निगरानी करेंउपकरण
आवेदनएजेंट के निर्णय, टूल कॉल, त्रुटियाँएप्लिकेशन लॉग, निशान
इंफ्रास्ट्रक्चरसीपीयू, मेमोरी, विलंबता, थ्रूपुटप्रोमेथियस, ग्राफाना
व्यापारसटीकता, ग्राहक संतुष्टि, समाधान दरकस्टम डैशबोर्ड
लागतटोकन उपयोग, एपीआई कॉल, गणना समयलागत ट्रैकिंग डैशबोर्ड
सुरक्षाइंजेक्शन के प्रयास, अनुमति का उल्लंघन, विसंगतियाँसुरक्षा घटना की निगरानी

प्रमुख मेट्रिक्स

उत्पादन में प्रत्येक AI एजेंट के लिए इन मैट्रिक्स को ट्रैक करें:

मीट्रिकलक्ष्यचेतावनी सीमा
कार्य सफलता दर>95%90% से नीचे
औसत विलंबता<3 सेकंड5 सेकंड से ऊपर
त्रुटि दर<1%3% से ऊपर
मतिभ्रम दर<2%5% से ऊपर
मानव वृद्धि दर10-20%30% से ऊपर
प्रति कार्य लागतबजट के भीतरबेसलाइन से 2x ऊपर
उपयोगकर्ता संतुष्टि>4.0/5.03.5 से नीचे

ट्रेसिंग

प्रत्येक एजेंट इंटरैक्शन के लिए वितरित ट्रेसिंग लागू करें:

  1. अनुरोध प्राप्त हुआ: ट्रिगर, उपयोगकर्ता संदर्भ और टाइमस्टैम्प लॉग करें
  2. तर्क कदम: एजेंट के आंतरिक तर्क या योजना को लॉग करें
  3. टूल चयन: लॉग करें कि कौन सा टूल चुना गया और क्यों
  4. टूल निष्पादन: टूल कॉल, पैरामीटर, प्रतिक्रिया और विलंबता लॉग करें
  5. आउटपुट जेनरेशन: फ़िल्टर करने से पहले ड्राफ्ट आउटपुट लॉग करें
  6. आउटपुट डिलीवरी: उपयोगकर्ता को भेजे गए अंतिम आउटपुट को लॉग करें
  7. परिणाम: परिणाम लॉग करें (सफलता, विफलता, वृद्धि)

बहाव का पता लगाना

एजेंट ड्रिफ्ट क्या है?

एजेंट बहाव तब होता है जब किसी एजेंट का व्यवहार समय के साथ बदलता है:

  • एलएलएम प्रदाता द्वारा मॉडल अपडेट
  • इनपुट वितरण में परिवर्तन (नए प्रकार के अनुरोध)
  • कनेक्टेड सिस्टम में डेटा परिवर्तन
  • त्वरित प्रभावशीलता में धीरे-धीरे गिरावट

बहाव का पता लगाना

विधिकार्यान्वयनआवृत्ति
गोल्डन डेटासेट पुनर्मूल्यांकनबेसलाइन परिदृश्य साप्ताहिक चलाएँसाप्ताहिक
वितरण निगरानीसमय के साथ इनपुट/आउटपुट वितरण की तुलना करेंदैनिक
सटीकता नमूनाकरणमानव-उत्पादन अंतःक्रियाओं के एक यादृच्छिक नमूने का मूल्यांकन करेंसाप्ताहिक
मीट्रिक ट्रेंडिंगदिशात्मक परिवर्तनों के लिए प्रमुख मेट्रिक्स को ट्रैक करेंसतत

ड्रिफ्ट का जवाब

जब बहाव का पता चलता है:

  1. मूल कारण की पहचान करें (मॉडल परिवर्तन, डेटा परिवर्तन, नए इनपुट पैटर्न)
  2. यदि एजेंट का नया व्यवहार सही है तो गोल्डन डेटासेट को अपडेट करें
  3. यदि बहाव अवांछनीय है तो संकेत या कॉन्फ़िगरेशन अपडेट करें
  4. सुधार के बाद पूर्ण परीक्षण सूट पुनः चलाएँ
  5. बहाव की घटना और समाधान का दस्तावेजीकरण करें

घटना प्रतिक्रिया

एआई एजेंट घटनाएं

एआई एजेंट घटनाओं में शामिल हैं:

घटना प्रकारगंभीरताप्रतिक्रिया
गलत जानकारी प्रस्तुत करने वाला एजेंटउच्चस्वायत्तता कम करो, मानवीय समीक्षा बढ़ाओ
एजेंट अनुरोधों को संसाधित करने में असमर्थमध्यमबैकअप एजेंट या मानव कतार में विफलता
सुरक्षा उल्लंघन (सफल इंजेक्शन)गंभीरएजेंट को अक्षम करें, जांच करें, उपाय करें
लागत में बढ़ोतरी (अनिवार्य टोकन उपयोग)मध्यमदर सीमा लागू करें, कारण की जांच करें
एजेंट इंटरेक्शन से ग्राहक की शिकायतमध्यमलॉग की समीक्षा करें, सही व्यवहार करें, अनुवर्ती कार्रवाई करें

घटना प्लेबुक

  1. पता लगाएं: असामान्य मेट्रिक्स पर मॉनिटरिंग अलर्ट ट्रिगर होता है
  2. आकलन: गंभीरता और प्रभाव का दायरा निर्धारित करें
  3. शामिल: एजेंट की स्वायत्तता कम करें या यदि आवश्यक हो तो अक्षम करें
  4. जांच: मूल कारण की पहचान करने के लिए निशानों और लॉग की समीक्षा करें
  5. ठीक: कॉन्फ़िगरेशन, संकेत या कोड अपडेट करें
  6. परीक्षण: प्रतिगमन परीक्षणों के साथ स्टेजिंग में सुधार को सत्यापित करें
  7. तैनाती: निगरानी के साथ रोल आउट फिक्स
  8. समीक्षा: दस्तावेज़ घटना और अद्यतन निगरानी

ओपनक्लॉ परीक्षण उपकरण

OpenClaw में अंतर्निहित परीक्षण और निगरानी क्षमताएं शामिल हैं:

  • व्यवहारिक और प्रतिकूल परीक्षण के लिए परीक्षण रूपरेखा
  • संस्करण नियंत्रण के साथ गोल्डन डेटासेट प्रबंधन
  • डिबगिंग एजेंट तर्क के लिए ट्रेस विज़ुअलाइज़ेशन
  • उत्पादन निगरानी के लिए मीट्रिक डैशबोर्ड
  • स्वचालित चेतावनी के साथ बहाव का पता लगाना
  • घटना प्रबंधन एकीकरण

ECOSIRE परीक्षण और निगरानी सेवाएँ

एआई एजेंट की विश्वसनीयता सुनिश्चित करने के लिए विशेष परीक्षण विशेषज्ञता की आवश्यकता होती है। ECOSIRE की ओपनक्लाव समर्थन और रखरखाव सेवाएं में चल रही निगरानी, ​​​​परीक्षण और घटना प्रतिक्रिया शामिल है। हमारी ओपनक्लाव कार्यान्वयन सेवाएं पहले दिन से ही व्यापक परीक्षण सूट और निगरानी बुनियादी ढांचे का निर्माण करती हैं।

संबंधित पढ़ना

एआई एजेंट टेस्ट सूट को कितनी बार अपडेट किया जाना चाहिए?

जब भी एजेंट की क्षमताएं बदलती हैं, उत्पादन में नए किनारे के मामले खोजे जाते हैं, या अंतर्निहित मॉडल अपडेट किया जाता है, तो परीक्षण सूट अपडेट करें। कम से कम, गोल्डन डेटासेट की मासिक समीक्षा और विस्तार करें। नए आक्रमण पैटर्न सामने आने पर प्रतिकूल परीक्षणों को त्रैमासिक ताज़ा किया जाना चाहिए।

क्या एआई एजेंट परीक्षण पूरी तरह से स्वचालित हो सकता है?

अधिकांश परीक्षण परतें स्वचालित की जा सकती हैं: इकाई परीक्षण, एकीकरण परीक्षण, टूल कॉल सत्यापन और गोल्डन डेटासेट मूल्यांकन। हालाँकि, जटिल या रचनात्मक कार्यों के लिए व्यवहारिक मूल्यांकन समय-समय पर मानवीय समीक्षा से लाभान्वित होता है। मानव अंशांकन के साथ स्केलेबल मूल्यांकन के लिए एलएलएम-ए-जज का उपयोग करें।

उत्पादन एआई एजेंटों के लिए स्वीकार्य मतिभ्रम दर क्या है?

सूचना पुनर्प्राप्ति कार्यों (ऑर्डर देखना, इन्वेंट्री की जांच करना) के लिए, लक्ष्य मतिभ्रम दर 1% से कम होनी चाहिए। सृजनात्मक कार्यों (सामग्री लिखना, संक्षेपण) के लिए, मानवीय समीक्षा के साथ 2-5% स्वीकार्य हो सकता है। सुरक्षा-महत्वपूर्ण अनुप्रयोगों (चिकित्सा, कानूनी, वित्तीय) के लिए, कोई भी मतिभ्रम अस्वीकार्य है और सभी आउटपुट के मानव सत्यापन की आवश्यकता होती है।

शेयर करें:
E

लेखक

ECOSIRE Research and Development Team

ECOSIRE में एंटरप्राइज़-ग्रेड डिजिटल उत्पाद बना रहे हैं। Odoo एकीकरण, ई-कॉमर्स ऑटोमेशन, और AI-संचालित व्यावसायिक समाधानों पर अंतर्दृष्टि साझा कर रहे हैं।

WhatsApp पर चैट करें