Testing and Monitoring AI Agents in Production

AI ایجنٹ کو پروڈکشن میں تعینات کرنا نفاذ کا اختتام نہیں ہے - یہ ایک آپریشنل ڈسپلن کا آغاز ہے جو روایتی سافٹ ویئر کے لیے موجود نہیں ہے۔ روایتی ایپلی کیشنز قطعی طور پر ناکام ہوجاتی ہیں: ایک ہی ان پٹ کو دیکھتے ہوئے، آپ کو وہی (غلط) آؤٹ پٹ ملتا ہے۔ AI ایجنٹس ممکنہ طور پر ناکام ہو جاتے ہیں: ایک ہی ان پٹ 97% وقت کا صحیح آؤٹ پٹ اور 3% وقت کا ٹھیک ٹھیک آؤٹ پٹ پیدا کرتا ہے، اور یہ کہ ماڈلز کے اپ ڈیٹ ہوتے ہی 3% تبدیلیاں آتی ہیں، ان پٹ ڈسٹری بیوشن شفٹ ہوتے ہیں، اور کاروباری اصول تیار ہوتے ہیں۔

یہ گائیڈ AI ایجنٹوں کی تعیناتی سے پہلے جانچ اور پیداوار میں مسلسل ان کی نگرانی کے لیے مکمل آپریشنل فریم ورک کا احاطہ کرتا ہے، OpenClaw کے نفاذ کے لیے مخصوص نمونوں کے ساتھ۔

اہم ٹیک ویز

AI ایجنٹ کی جانچ کے لیے فنکشنل ٹیسٹ (درست آؤٹ پٹ) اور رویے کے ٹیسٹ (مسلسل استدلال) دونوں کی ضرورت ہوتی ہے۔

جب ماڈلز اپ ڈیٹ ہوتے ہیں تو ریگریشن ٹیسٹنگ اہم ہوتی ہے - فرض کریں کہ رویہ تب تک بدل جائے گا جب تک کہ دوسری صورت میں ثابت نہ ہو جائے۔

پیداوار کی نگرانی کو درستگی کے میٹرکس کو ٹریک کرنا چاہیے، نہ کہ صرف دستیابی اور تاخیر

ٹوکن کا استعمال اور لاگت کی نگرانی غیر متوقع بلنگ کی بڑھتی ہوئی وارداتوں کو روکتی ہے۔

ایجنٹ کے آؤٹ پٹس میں بے ضابطگی کا پتہ لگانے سے کاروباری نتائج پر اثر انداز ہونے سے پہلے درستگی میں کمی آتی ہے

انسانی جائزے کے نمونے خودکار نگرانی کیلیبریٹ کرنے کے لیے زمینی سچائی فراہم کرتے ہیں۔

AI ایجنٹوں کے لیے وقوعہ کے جوابی پلے بکس روایتی سافٹ ویئر کے واقعات سے بنیادی طور پر مختلف ہیں۔

A/B ٹیسٹنگ فریم ورک فوری تبدیلیوں اور ماڈل اپ گریڈ کی محفوظ تشخیص کو قابل بناتا ہے۔

AI ایجنٹ کی جانچ کیوں مختلف ہے۔

AI ایجنٹوں کی جانچ کے لیے روایتی سافٹ ویئر کی جانچ سے بنیادی طور پر مختلف ذہنیت کی ضرورت ہوتی ہے۔ روایتی سافٹ ویئر ٹیسٹنگ میں، آپ ٹیسٹ کیس لکھتے ہیں، ان پٹ فراہم کرتے ہیں، اور متوقع اقدار کے خلاف آؤٹ پٹ کی تصدیق کرتے ہیں۔ اگر ٹیسٹ مستقل طور پر پاس ہوتا ہے، تو سافٹ ویئر درست ہے۔

AI ایجنٹ اس طرح کام نہیں کرتے۔ ان کے آؤٹ پٹس امکانی ہوتے ہیں — وہ درست، قدرے آف یا مکمل طور پر غلط ہو سکتے ہیں، اور نتائج کی امکانی تقسیم کا انحصار ماڈل ورژن، فراہم کردہ سیاق و سباق، اور ان پٹ کے مخصوص فقرے پر ہوتا ہے۔ تین چیلنجز روایتی جانچ کو ناکافی بناتے ہیں:

نان ڈیٹرمنزم: ایک ہی پرامپٹ کو دو بار چلانے سے مختلف آؤٹ پٹ نکل سکتے ہیں۔ ٹیسٹوں کو ایک حد کے اندر آؤٹ پٹ کے معیار کا جائزہ لینا چاہیے، قطعی مساوات کا نہیں۔

ماڈل ورژن کی حساسیت: جب آپ کا LLM فراہم کنندہ ایک نیا ماڈل ورژن جاری کرتا ہے، تو آپ کے ایجنٹ کا طرز عمل ان طریقوں سے تبدیل ہو سکتا ہے جو فوری طور پر واضح نہ ہوں۔ ایک ماڈل جو آپ کے کام پر 94% درست تھا وہ 96% تک بہتر ہو سکتا ہے یا 91% تک گر سکتا ہے — آپ کو اس کا پتہ لگانے کے لیے میکانزم کی ضرورت ہے۔

سیاق و سباق پر انحصار: ایجنٹ کا رویہ فراہم کردہ سیاق و سباق پر بہت زیادہ انحصار کرتا ہے (بازیافت شدہ دستاویزات، گفتگو کی سرگزشت، سسٹم کی ہدایات)۔ سیاق و سباق کی اسمبلی میں چھوٹی تبدیلیاں آؤٹ پٹ کے معیار کو نمایاں طور پر متاثر کر سکتی ہیں۔

پری پروڈکشن ٹیسٹنگ فریم ورک

ہنر کے لیے یونٹ ٹیسٹ

ہر OpenClaw Skill میں ایک ٹیسٹ سوٹ ہونا چاہیے جو ان پٹ کے نمائندہ نمونے کے ساتھ اس کے رویے کی توثیق کرے۔ یہ ٹیسٹ معیاری اصرار کے برابر ٹیسٹ نہیں ہیں - یہ ایک تشخیصی فریم ورک استعمال کرتے ہیں جو آؤٹ پٹ کوالٹی کو اسکور کرتا ہے۔

معاہدے کے جائزے کے لیے ٹیسٹ کا ڈھانچہ مہارت:

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

ہر ٹیسٹ کے لیے تشخیص کا معیار:

یاد کریں (کیا ایجنٹ کو وہاں کیا تھا؟)
درستگی (کیا ایجنٹ نے صرف متعلقہ اشیاء کو جھنڈا لگایا؟)
خطرے کی تشخیص کی درستگی (کیا خطرے کی سطح مناسب ہے؟)
تجویز کردہ اعمال کی تکمیل
آؤٹ پٹ فارمیٹ کی تعمیل (ضروری فیلڈ موجود، درست ڈھانچہ)

گولڈن ڈیٹاسیٹ ٹیسٹنگ

انسانی تصدیق شدہ متوقع آؤٹ پٹس کے ساتھ 50-200 نمائندہ ان پٹ کے سنہری ڈیٹا سیٹ کو برقرار رکھیں۔ ہر پروڈکشن کی تعیناتی سے پہلے، اس ڈیٹاسیٹ کے خلاف ایجنٹ کو چلائیں اور درستگی کے میٹرکس کی گنتی کریں۔ آپ کی حد سے نیچے درستگی کے ساتھ تعیناتیاں مسدود ہیں۔

گولڈن ڈیٹاسیٹ کی تعمیر:

پروڈکشن ٹریفک سے 200 حقیقی ان پٹ جمع کریں (اگر ضروری ہو تو گمنام)
ڈومین کے ماہرین سے ہر ایک کے لیے درست نتائج کا جائزہ لینے اور ان کی تشریح کرنے کو کہیں۔
ایج کیسز، غیر معمولی ان پٹ، اور عام غلطی کے نمونوں کا احاطہ کرنے کے لیے ڈیٹاسیٹ کو مستحکم کریں
گولڈن ڈیٹاسیٹ کے خلاف بیس لائن درستگی میٹرکس قائم کریں۔
بیس لائن کے نیچے کسی بھی رجعت کو تعیناتی بلاکر کے طور پر سمجھیں۔

گولڈن ڈیٹاسیٹ کے لیے خودکار تشخیص: LLM کو بطور تشخیص کار کرایہ پر لیں یا تربیت دیں — ایک علیحدہ LLM کال جو ایجنٹ کی آؤٹ پٹ اور انسانی تصدیق شدہ متوقع آؤٹ پٹ لیتی ہے اور مماثلت/درستیت کا سکور تیار کرتی ہے۔ یہ "ایل ایل ایم بطور جج" پیٹرن ہے۔ بارڈر لائن کیسز کے انسانی جائزے کے ساتھ مل کر، یہ سنہری ڈیٹاسیٹ کی تشخیص کو متواتر رنز تک لے جاتا ہے۔

انٹیگریشن ٹیسٹ

جانچ ایجنٹ کے رویے کو پورے سسٹم میں آخر سے آخر تک، بشمول انضمام:

انٹیگریشن ٹیسٹ کے منظرنامے:

ایجنٹ ERP سے پڑھتا ہے، ڈیٹا پر کارروائی کرتا ہے، واپس لکھتا ہے — ڈیٹا کی سالمیت کی تصدیق کریں۔
ایجنٹ بیرونی API کو کال کرتا ہے، کامیابی اور ناکامی کے جوابات کو سنبھالتا ہے۔
ایجنٹ ملٹی ایجنٹ ورک فلو میں دوسرے ایجنٹ کے ساتھ کوآرڈینیٹ کرتا ہے۔
ایجنٹ ٹائم آؤٹ، شرح کی حد، اور API کی عدم دستیابی کو احسن طریقے سے ہینڈل کرتا ہے۔
ایجنٹ ایسے آؤٹ پٹ تیار کرتا ہے جو نیچے دھارے کے کاروبار کے عمل کو صحیح طریقے سے متحرک کرتا ہے۔

** نقلی ناکامی کی جانچ:**

بیرونی API کالوں میں ٹائم آؤٹ کی ناکامیوں کو انجیکشن کریں۔
خراب یا گمشدہ ڈیٹا فراہم کریں۔
ماڈل فراہم کنندہ کی عدم دستیابی کی تقلید کریں۔
جب ایجنٹ ٹاسک مکمل نہ کر سکے تو مکرم انحطاط کی جانچ کریں۔

پروڈکشن مانیٹرنگ آرکیٹیکچر

AI ایجنٹ کی نگرانی کے چار ستون

ستون 1: آپریشنل ہیلتھ (معیاری سافٹ ویئر مانیٹرنگ)

اپ ٹائم اور دستیابی
تاخیر فی عمل درآمد (P50, P95, P99)
خرابی کی شرح (ایجنٹ کریشز، غیر ہینڈل استثناء، API ناکامیاں)
قطار کی گہرائی اور تھرو پٹ
وسائل کا استعمال (سی پی یو، میموری، API کنکرنسی)

ستون 2: آؤٹ پٹ کوالٹی (AI مخصوص نگرانی)

نمونے کے آؤٹ پٹس پر درستگی کی شرح (انسانی یا ایل ایل ایم کے مطابق)
ہیلوسینیشن کا پتہ لگانا (معلومات پر مشتمل آؤٹ پٹ فراہم کردہ سیاق و سباق میں نہیں)
فارمیٹ تعمیل کی شرح (آؤٹ پٹ جو مطلوبہ ڈھانچے کو پورا کرتے ہیں)
اعتماد سکور کی تقسیم (ایجنٹ جو اچانک کم اعتماد سگنل کی کمی کا اظہار کرتے ہیں)
کام کی تکمیل کی شرح (ایجنٹ کامیابی کے ساتھ مکمل آؤٹ پٹ تیار کرتا ہے بمقابلہ غلطی یا نامکمل جواب دیتا ہے)

تیسرا ستون: کاروباری اثرات (نتائج کی نگرانی)

ڈاون اسٹریم ایکشن کی کامیابی کی شرح (آڈرز کامیابی کے ساتھ دیے گئے، منظوریوں کو درست طریقے سے روٹ کیا گیا، وغیرہ)
انسانی اوور رائڈ کی شرح (انسان کتنی بار ایجنٹ کے فیصلوں کو اوور رائیڈ کر رہے ہیں)
گاہک کا سامنا کرنے والے ایجنٹوں کے لیے گاہک کی اطمینان (CSAT, NPS)
استثنیٰ کی شرح (ان پٹ انسانی جائزے کے لیے بڑھا دیے گئے)
عمل کے چکر کا وقت (آخر سے آخر تک کام کی تکمیل کا وقت)

ستون 4: لاگت (ٹوکن اور API لاگت کی نگرانی)

ٹوکن کی کھپت فی عمل درآمد (ان پٹ + آؤٹ پٹ)
فی کامیاب کام کی تکمیل کی لاگت
ٹوکن کا غیر معمولی استعمال (اوسط سگنل پرامپٹ انجیکشن یا سیاق و سباق کی آلودگی کے مقابلے میں نمایاں طور پر زیادہ ٹوکن استعمال کرنے والے پھانسیاں)
روزانہ/ہفتہ وار لاگت کا رجحان بمقابلہ پیشن گوئی

مشاہداتی عمل درآمد

OpenClaw بلٹ ان ایگزیکیوشن ٹریسنگ فراہم کرتا ہے۔ ہر ایجنٹ رن ایک منظم ٹریس تیار کرتا ہے بشمول:

پھانسی کی شناخت اور ٹائم اسٹیمپ
ان پٹ ڈیٹا (PII ترمیم کے ساتھ)
سیاق و سباق کو بازیافت کیا گیا (RAG ٹکڑوں، گفتگو سے پہلے کا رخ)
ایل ایل ایم کو مکمل پرامپٹ بھیج دیا گیا۔
ایل ایل ایم کا جواب
پوسٹ پروسیسنگ کے مراحل
فائنل آؤٹ پٹ
ٹوکن کی گنتی اور لاگت
پھانسی کا کل وقت
کوئی مستثنیات یا اضافہ

یہ ٹریس ڈیٹا پوسٹ ہاک ڈیبگنگ کو قابل بناتا ہے جب کوئی ایجنٹ غلط آؤٹ پٹ تیار کرتا ہے۔ آپ عین عمل کو دوبارہ چلا سکتے ہیں اور ہر قدم کو دیکھ سکتے ہیں۔

** نمونے لینے کی حکمت عملی کا سراغ لگائیں:**

اعلی قیمت والے لین دین کا 100% نمونہ (> $X مالیاتی اثر)
100% استثناء اور اضافہ کا نمونہ
معیار کی نگرانی کے لیے معمول کے لین دین کا 5-10% نمونہ
مسائل کی اطلاع دینے والے صارفین کے لیے 100% آؤٹ پٹ کا نمونہ

ڈیش بورڈ ڈیزائن

مؤثر AI ایجنٹ کی نگرانی کرنے والے ڈیش بورڈز روایتی ایپلیکیشن ڈیش بورڈز سے مختلف معلومات کا تبادلہ کرتے ہیں۔ کلیدی پینل:

ریئل ٹائم آپریشنز پینل:

فعال پھانسیاں
قطار کی گہرائی
عمل درآمد کی شرح (آخری 5 منٹ بمقابلہ بیس لائن)
خرابی کی شرح (آخری 5 منٹ)
P95 تاخیر

کوالٹی ٹرینڈ پینل (24 گھنٹے کا منظر):

درستگی کی شرح کا رجحان (نمونے والے تشخیص سے)
Human override rate trend
استثنیٰ/اضافے کی شرح کا رجحان
اعتماد کے اسکور کی تقسیم

** لاگت کا پینل:**

آج کی ٹوکن کی کھپت بمقابلہ پیشن گوئی
لاگت فی کامیاب کام (رجحان)
غیر معمولی پھانسیاں (باہر ٹوکن کی کھپت)
ہفتہ وار لاگت کا تخمینہ

کاروباری نتائج کا پینل:

ورک فلو کی قسم کے لحاظ سے کام کی تکمیل کی شرح
بہاو کامیابی کی شرح
گاہک کی اطمینان (اگر ماپا جائے)
حجم پر عملدرآمد (پچھلی مدت کے مقابلے میں)

بہاؤ کا پتہ لگانا

AI ایجنٹ کی ناکامی کے طریقوں میں سے ایک بتدریج بڑھنا ہے — ایجنٹ کی کارکردگی وقت کے ساتھ ساتھ دھیرے دھیرے تنزلی کا شکار ہوتی ہے کیونکہ ان پٹس کی تقسیم ٹریننگ کی تقسیم سے ہٹ جاتی ہے، یا جیسا کہ ماڈل کو فراہم کنندہ کے ذریعے اپ ڈیٹ کیا جاتا ہے۔

ان پٹ ڈسٹری بیوشن مانیٹرنگ

وقت کے ساتھ اپنے ان پٹ ڈیٹا کی تقسیم کے اعدادوشمار کو ٹریک کریں۔ اہم تبدیلیوں پر الرٹ:

الفاظ میں اضافہ (نئی اصطلاحات ظاہر ہو رہی ہیں جو تربیتی ڈیٹا میں نہیں تھیں)
ان پٹ کی لمبائی کی تقسیم میں تبدیلیاں (غیر معمولی طور پر طویل یا مختصر ان پٹ)
ان پٹ میں زبان یا فارمیٹ کی تبدیلی
دستاویز کی پروسیسنگ پائپ لائنوں میں نئی دستاویز کی اقسام ظاہر ہو رہی ہیں۔

ماڈل ورژن میں تبدیلی کا پتہ لگانا

LLM فراہم کرنے والے اپنے ماڈلز کو مسلسل اپ ڈیٹ کرتے رہتے ہیں۔ کچھ اپ ڈیٹس خاموش ہیں (ایک ہی ماڈل شناخت کنندہ، مختلف وزن)۔ مانیٹر برائے:

ردعمل کی لمبائی کی تقسیم میں تبدیلیاں
فارمیٹ کی تعمیل کی شرح میں تبدیلی
لیٹنسی پروفائل میں تبدیلیاں
اعتماد سکور کی تقسیم میں تبدیلیاں

جب ان میں سے کوئی بھی میٹرکس نمایاں طور پر بدل جاتا ہے، تو درستگی کے اثرات کو درست کرنے کے لیے گولڈن ڈیٹاسیٹ کی تشخیص کو فوری طور پر چلائیں۔

تصور کا بہاؤ

کاروبار کے اصول اور ڈومین کا علم وقت کے ساتھ بدل جاتا ہے۔ 2024 قیمتوں کے اصولوں کو لاگو کرنے کے لیے تربیت یافتہ ایجنٹ 2025 کے قیمتوں کے اصولوں کے نافذ ہونے پر غلط نتائج پیدا کرے گا۔ مانیٹر:

وجہ کوڈ کے لحاظ سے انسانی اوور رائیڈ کی شرح (کسی خاص وجہ سے اوور رائیڈز میں اضافہ اس علاقے میں تصور کے بڑھنے کی نشاندہی کرتا ہے)
خرابی کی قسم کی تقسیم میں تبدیلیاں
استثنیٰ میں اضافے کی وجوہات

AI ایجنٹوں کے لیے واقعہ کا جواب

AI ایجنٹ کے واقعات روایتی سافٹ ویئر کے واقعات سے مختلف ہوتے ہیں۔ ناکامی اکثر کریش نہیں ہوتی ہے - یہ آؤٹ پٹ کوالٹی میں گراوٹ ہے جو کاروباری نتائج کو ٹھیک طرح سے متاثر کرتی ہے۔

واقعہ کی شدت کی سطح:

سطح	تعریف	رسپانس ٹائم	ایکشن
P1	مالیاتی یا حفاظتی فیصلوں کو متاثر کرنے والے منظم طریقے سے غلط نتائج پیدا کرنے والا ایجنٹ	فوری	ایجنٹ کو غیر فعال کریں، دستی فال بیک
P2	درستگی 10% نیچے بنیادی لائن سے نیچے	30 منٹ	الرٹ، بنیادی وجہ کا اندازہ کریں، غیر فعال کرنے پر غور کریں
P3	استثناء کی شرح بلند، معیار کی سرحد	2 گھنٹے	تحقیقات کریں، قریب سے نگرانی کریں
P4	کارکردگی تنزلی لیکن قابل قبول حد کے اندر	اگلے کاروباری دن	اگلی تکرار سائیکل کے لیے لاگ ان کریں

P1 واقعے کا جواب پلے بک:

پتہ لگانا: نگرانی کے نظام سے خودکار الرٹ محرکات
تخمینہ (5 منٹ): حالیہ پھانسیوں کا جائزہ لیں، غلطی کے پیٹرن کی نشاندہی کریں۔
مشتمل (10 منٹ): دستی فال بیک کے عمل پر جائیں، اگر ضروری ہو تو ایجنٹ کو غیر فعال کریں
تشخیص (30-60 منٹ): بنیادی وجہ کی شناخت کریں (ماڈل کی تبدیلی، ان پٹ ڈسٹری بیوشن شفٹ، فوری ریگریشن، انضمام کی ناکامی)
ریمیڈیٹ: اپلائی فکس (فوری اپ ڈیٹ، ماڈل رول بیک، ان پٹ کی توثیق میں تبدیلی، انضمام فکس)
تصدیق کریں: فکسڈ ایجنٹ کے خلاف گولڈن ڈیٹاسیٹ کی تشخیص چلائیں۔
بحال: ایلیویٹڈ الرٹ حالت میں نگرانی کے ساتھ ایجنٹ کو دوبارہ فعال کریں۔
پوسٹ مارٹم: 48 گھنٹوں کے اندر دستاویز - کیا ناکام ہوا، کیوں، دوبارہ ہونے سے کیسے بچنا ہے

ایجنٹ کی بہتری کے لیے A/B ٹیسٹنگ

AI ایجنٹوں کو بہتر بنانے کے لیے مکمل تعیناتی سے پہلے تبدیلیوں کا محفوظ طریقے سے جائزہ لینے کی ضرورت ہوتی ہے۔ A/B ٹیسٹنگ اسے قابل بناتا ہے:

شیڈو موڈ ٹیسٹنگ: نئے ایجنٹ ورژن کو پروڈکشن ٹریفک پر اس کے آؤٹ پٹس استعمال کیے بغیر چلائیں — شیڈو آؤٹ پٹس کا موجودہ ایجنٹ آؤٹ پٹس سے موازنہ کریں تاکہ صارفین پر اثر انداز ہونے سے پہلے فرق کو درست کیا جا سکے۔

کینری تعیناتی: پروڈکشن ٹریفک کا 5-10% نئے ایجنٹ ورژن کی طرف روٹ کریں۔ کینری آبادی بمقابلہ کنٹرول آبادی پر معیار کے میٹرکس کی نگرانی کریں۔ اگر میٹرکس بہتر ہوں یا ہولڈ ہوں تو آگے بڑھیں، اگر انحطاط ہو تو پیچھے ہٹیں۔

چیمپئن/چیلنجر: موجودہ پروڈکشن ایجنٹ "چیمپئن" ہے۔ نئے ایجنٹ ورژن "چیلنجرز" ہیں۔ چیلنجرز کو چیمپئن بننے سے پہلے گولڈن ڈیٹاسیٹ میں شماریاتی لحاظ سے نمایاں بہتری ثابت کرنی ہوگی۔

رول بیک ٹرگرز: خودکار رول بیک ٹرگرز کی وضاحت کریں — اگر کینری کی درستگی حد سے نیچے گر جاتی ہے یا انسانی اوور رائیڈ کی شرح حد سے زیادہ بڑھ جاتی ہے، تو خود بخود چیمپئن پر واپس آجائیں۔

اکثر پوچھے گئے سوالات

ہمیں پیداوار میں گولڈن ڈیٹاسیٹ کی تشخیص کتنی بار چلانی چاہیے؟

ہر تعیناتی پر چلائیں (بشمول ماڈل ورژن کی تبدیلیاں)، ہفتہ وار صحت کی جانچ کے طور پر، اور فوری طور پر جب نگرانی میں بے ضابطگیوں کا پتہ چلتا ہے۔ ہائی اسٹیک ایجنٹس کے لیے (مالی فیصلے، طبی دستاویزات)، روزانہ چلائیں۔ خودکار CI/CD پائپ لائنز ہر کوڈ کی تبدیلی پر خود بخود سنہری ڈیٹاسیٹ کی تشخیص کو متحرک کر سکتی ہیں۔

جب LLM فراہم کنندہ خاموشی سے ماڈل کو اپ ڈیٹ کرتا ہے تو ہم کیسے پتہ لگاتے ہیں؟

جوابی خصوصیات کی نگرانی کریں جو مستحکم ہونی چاہئیں: اوسط ردعمل کی لمبائی، فارمیٹ کی تعمیل کی شرح، اعتماد کے اسکور کی تقسیم، اور تاخیر کا پروفائل۔ ان میٹرکس میں کوئی بھی اہم تبدیلی درستگی کے اثرات کو درست کرنے کے لیے ڈیٹاسیٹ کی سنہری تشخیص کو متحرک کرتی ہے۔ کچھ فراہم کنندگان ماڈل ورژننگ پیش کرتے ہیں جو ایک مخصوص ورژن پر پن کرتا ہے — جہاں دستیاب ہو اسے استعمال کریں۔

پروڈکشن AI ایجنٹس کے لیے ایک قابل قبول درستگی کی حد کیا ہے؟

یہ مکمل طور پر استعمال کے کیس اور غلطیوں کی قیمت پر منحصر ہے۔ خود مختار مالی فیصلے کرنے والے ایجنٹوں کے لیے، عام طور پر 98%+ درستگی درکار ہوتی ہے۔ ڈرافٹ تیار کرنے والے ایجنٹوں کے لیے جن کا انسان جائزہ لیتے ہیں، 85-90% اکثر قابل قبول ہوتا ہے کیونکہ انسان غلطیاں پکڑتا ہے۔ داخلی تجزیات تیار کرنے والے ایجنٹوں کے لیے جہاں غلطیاں کم ہیں، 80% کافی ہو سکتے ہیں۔ غلطی کی لاگت کے تجزیہ کی بنیاد پر اپنی حد کی وضاحت کریں، نہ کہ من مانی بینچ مارکس کی بنیاد پر۔

ہم ایجنٹ کے عمل آوری کے نشانات کو ذخیرہ کرنے کے لیے GDPR اور ڈیٹا کی رازداری کے تقاضوں کو کیسے ہینڈل کرتے ہیں؟

OpenClaw کا ٹریس سسٹم اسٹوریج سے پہلے PII ریڈیکشن کو سپورٹ کرتا ہے — کنفیگر کریں کہ ٹریس کنفیگریشن میں کن فیلڈز کو رییکٹ کرنا ہے۔ ڈیٹا کو کم سے کم کرنے کے تقاضوں کی تعمیل کرنے کے لیے ٹریسز کو قابل ترتیب برقرار رکھنے کی مدت کے ساتھ محفوظ کیا جاتا ہے۔ EU پر مبنی تعیناتیوں کے لیے، ٹریس اسٹوریج کو صرف EU والے علاقوں میں ترتیب دیا جا سکتا ہے۔ افراد جی ڈی پی آر کے حق سے مٹانے کی دفعات کے تحت نشانات سے اپنے ڈیٹا کو حذف کرنے کی درخواست کر سکتے ہیں۔

مؤثر معیار کی نگرانی کے لیے ہمیں انسانی جائزے کے نمونے لینے کی شرح کیا ہے؟

زیادہ تر ایجنٹوں کے لیے، پیداواری پیداوار کے 2-5% نمونے شماریاتی لحاظ سے اہم معیار کی نگرانی فراہم کرتے ہیں۔ زیادہ قیمت یا زیادہ خطرے والے ایجنٹوں کے لیے، 10-20% تک بڑھائیں۔ جائزہ لینے کے عمل کو منظم ہونا چاہیے — جائزہ لینے والے عام تاثرات کے بجائے معیاری روبرک استعمال کرتے ہیں۔ OpenClaw کا جائزہ انٹرفیس روبرک کے ساتھ نمونے کے نتائج پیش کرتا ہے اور ساختی تاثرات حاصل کرتا ہے۔

کیا ہم کسی اور LLM کا استعمال کرتے ہوئے انسانی جائزہ کے عمل کو خودکار کر سکتے ہیں؟

جزوی طور پر۔ "ایل ایل ایم بطور جج" پیٹرن آؤٹ پٹ فارمیٹ، مکملیت، اور بنیادی حقائق کی درستگی کا جائزہ لینے کے لیے اچھی طرح کام کرتے ہیں۔ وہ ڈومین کی مخصوص درستگی کا جائزہ لینے کے لیے کم کام کرتے ہیں (چاہے کسی معاہدے کے خطرے کی تشخیص درست ہو اس کے لیے قانونی مہارت کی ضرورت ہوتی ہے، عام AI فیصلے کی نہیں)۔ انشانکن اور توثیق کے لیے پیمانے اور انسانی جائزے کے لیے خودکار LLM تشخیص کا استعمال کریں۔

اگلے اقدامات

AI ایجنٹوں کے لیے پروڈکشن گریڈ ٹیسٹنگ اور نگرانی کو لاگو کرنے کے لیے AI سسٹمز اور DevOps طریقوں دونوں کے ساتھ تجربہ درکار ہوتا ہے۔ ECOSIRE کے OpenClaw کے نفاذ میں آپ کے مخصوص ایجنٹ کے ورک فلوز، پہلے سے ترتیب شدہ ڈیش بورڈز، الرٹ کرنے کی پالیسیاں، اور واقعہ کے جوابی رن بکس کے لیے ڈیزائن کردہ ایک مانیٹرنگ فن تعمیر شامل ہے۔

OpenClaw Support and Maintenance Services کو دریافت کریں جاری نگرانی اور اصلاح کے اختیارات کے بارے میں جاننے کے لیے، یا اپنی موجودہ یا منصوبہ بند OpenClaw تعیناتی کے لیے نگرانی کے فن تعمیر پر بات کرنے کے لیے مشاورت کا شیڈول بنائیں۔

اہم ٹیک ویز

AI ایجنٹ کی جانچ کے لیے فنکشنل ٹیسٹ (درست آؤٹ پٹ) اور رویے کے ٹیسٹ (مسلسل استدلال) دونوں کی ضرورت ہوتی ہے۔

جب ماڈلز اپ ڈیٹ ہوتے ہیں تو ریگریشن ٹیسٹنگ اہم ہوتی ہے - فرض کریں کہ رویہ تب تک بدل جائے گا جب تک کہ دوسری صورت میں ثابت نہ ہو جائے۔

پیداوار کی نگرانی کو درستگی کے میٹرکس کو ٹریک کرنا چاہیے، نہ کہ صرف دستیابی اور تاخیر

ٹوکن کا استعمال اور لاگت کی نگرانی غیر متوقع بلنگ کی بڑھتی ہوئی وارداتوں کو روکتی ہے۔

ایجنٹ کے آؤٹ پٹس میں بے ضابطگی کا پتہ لگانے سے کاروباری نتائج پر اثر انداز ہونے سے پہلے درستگی میں کمی آتی ہے

انسانی جائزے کے نمونے خودکار نگرانی کیلیبریٹ کرنے کے لیے زمینی سچائی فراہم کرتے ہیں۔

AI ایجنٹوں کے لیے وقوعہ کے جوابی پلے بکس روایتی سافٹ ویئر کے واقعات سے بنیادی طور پر مختلف ہیں۔

A/B ٹیسٹنگ فریم ورک فوری تبدیلیوں اور ماڈل اپ گریڈ کی محفوظ تشخیص کو قابل بناتا ہے۔

AI ایجنٹ کی جانچ کیوں مختلف ہے۔

پری پروڈکشن ٹیسٹنگ فریم ورک

ہنر کے لیے یونٹ ٹیسٹ

معاہدے کے جائزے کے لیے ٹیسٹ کا ڈھانچہ مہارت:

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

ہر ٹیسٹ کے لیے تشخیص کا معیار:

یاد کریں (کیا ایجنٹ کو وہاں کیا تھا؟)
درستگی (کیا ایجنٹ نے صرف متعلقہ اشیاء کو جھنڈا لگایا؟)
خطرے کی تشخیص کی درستگی (کیا خطرے کی سطح مناسب ہے؟)
تجویز کردہ اعمال کی تکمیل
آؤٹ پٹ فارمیٹ کی تعمیل (ضروری فیلڈ موجود، درست ڈھانچہ)

گولڈن ڈیٹاسیٹ ٹیسٹنگ

گولڈن ڈیٹاسیٹ کی تعمیر:

پروڈکشن ٹریفک سے 200 حقیقی ان پٹ جمع کریں (اگر ضروری ہو تو گمنام)
ڈومین کے ماہرین سے ہر ایک کے لیے درست نتائج کا جائزہ لینے اور ان کی تشریح کرنے کو کہیں۔
ایج کیسز، غیر معمولی ان پٹ، اور عام غلطی کے نمونوں کا احاطہ کرنے کے لیے ڈیٹاسیٹ کو مستحکم کریں
گولڈن ڈیٹاسیٹ کے خلاف بیس لائن درستگی میٹرکس قائم کریں۔
بیس لائن کے نیچے کسی بھی رجعت کو تعیناتی بلاکر کے طور پر سمجھیں۔

انٹیگریشن ٹیسٹ

جانچ ایجنٹ کے رویے کو پورے سسٹم میں آخر سے آخر تک، بشمول انضمام:

انٹیگریشن ٹیسٹ کے منظرنامے:

ایجنٹ ERP سے پڑھتا ہے، ڈیٹا پر کارروائی کرتا ہے، واپس لکھتا ہے — ڈیٹا کی سالمیت کی تصدیق کریں۔
ایجنٹ بیرونی API کو کال کرتا ہے، کامیابی اور ناکامی کے جوابات کو سنبھالتا ہے۔
ایجنٹ ملٹی ایجنٹ ورک فلو میں دوسرے ایجنٹ کے ساتھ کوآرڈینیٹ کرتا ہے۔
ایجنٹ ٹائم آؤٹ، شرح کی حد، اور API کی عدم دستیابی کو احسن طریقے سے ہینڈل کرتا ہے۔
ایجنٹ ایسے آؤٹ پٹ تیار کرتا ہے جو نیچے دھارے کے کاروبار کے عمل کو صحیح طریقے سے متحرک کرتا ہے۔

** نقلی ناکامی کی جانچ:**

بیرونی API کالوں میں ٹائم آؤٹ کی ناکامیوں کو انجیکشن کریں۔
خراب یا گمشدہ ڈیٹا فراہم کریں۔
ماڈل فراہم کنندہ کی عدم دستیابی کی تقلید کریں۔
جب ایجنٹ ٹاسک مکمل نہ کر سکے تو مکرم انحطاط کی جانچ کریں۔

پروڈکشن مانیٹرنگ آرکیٹیکچر

AI ایجنٹ کی نگرانی کے چار ستون

ستون 1: آپریشنل ہیلتھ (معیاری سافٹ ویئر مانیٹرنگ)

اپ ٹائم اور دستیابی
تاخیر فی عمل درآمد (P50, P95, P99)
خرابی کی شرح (ایجنٹ کریشز، غیر ہینڈل استثناء، API ناکامیاں)
قطار کی گہرائی اور تھرو پٹ
وسائل کا استعمال (سی پی یو، میموری، API کنکرنسی)

ستون 2: آؤٹ پٹ کوالٹی (AI مخصوص نگرانی)

نمونے کے آؤٹ پٹس پر درستگی کی شرح (انسانی یا ایل ایل ایم کے مطابق)
ہیلوسینیشن کا پتہ لگانا (معلومات پر مشتمل آؤٹ پٹ فراہم کردہ سیاق و سباق میں نہیں)
فارمیٹ تعمیل کی شرح (آؤٹ پٹ جو مطلوبہ ڈھانچے کو پورا کرتے ہیں)
اعتماد سکور کی تقسیم (ایجنٹ جو اچانک کم اعتماد سگنل کی کمی کا اظہار کرتے ہیں)
کام کی تکمیل کی شرح (ایجنٹ کامیابی کے ساتھ مکمل آؤٹ پٹ تیار کرتا ہے بمقابلہ غلطی یا نامکمل جواب دیتا ہے)

تیسرا ستون: کاروباری اثرات (نتائج کی نگرانی)

ڈاون اسٹریم ایکشن کی کامیابی کی شرح (آڈرز کامیابی کے ساتھ دیے گئے، منظوریوں کو درست طریقے سے روٹ کیا گیا، وغیرہ)
انسانی اوور رائڈ کی شرح (انسان کتنی بار ایجنٹ کے فیصلوں کو اوور رائیڈ کر رہے ہیں)
گاہک کا سامنا کرنے والے ایجنٹوں کے لیے گاہک کی اطمینان (CSAT, NPS)
استثنیٰ کی شرح (ان پٹ انسانی جائزے کے لیے بڑھا دیے گئے)
عمل کے چکر کا وقت (آخر سے آخر تک کام کی تکمیل کا وقت)

ستون 4: لاگت (ٹوکن اور API لاگت کی نگرانی)

ٹوکن کی کھپت فی عمل درآمد (ان پٹ + آؤٹ پٹ)
فی کامیاب کام کی تکمیل کی لاگت
ٹوکن کا غیر معمولی استعمال (اوسط سگنل پرامپٹ انجیکشن یا سیاق و سباق کی آلودگی کے مقابلے میں نمایاں طور پر زیادہ ٹوکن استعمال کرنے والے پھانسیاں)
روزانہ/ہفتہ وار لاگت کا رجحان بمقابلہ پیشن گوئی

مشاہداتی عمل درآمد

OpenClaw بلٹ ان ایگزیکیوشن ٹریسنگ فراہم کرتا ہے۔ ہر ایجنٹ رن ایک منظم ٹریس تیار کرتا ہے بشمول:

پھانسی کی شناخت اور ٹائم اسٹیمپ
ان پٹ ڈیٹا (PII ترمیم کے ساتھ)
سیاق و سباق کو بازیافت کیا گیا (RAG ٹکڑوں، گفتگو سے پہلے کا رخ)
ایل ایل ایم کو مکمل پرامپٹ بھیج دیا گیا۔
ایل ایل ایم کا جواب
پوسٹ پروسیسنگ کے مراحل
فائنل آؤٹ پٹ
ٹوکن کی گنتی اور لاگت
پھانسی کا کل وقت
کوئی مستثنیات یا اضافہ

** نمونے لینے کی حکمت عملی کا سراغ لگائیں:**

اعلی قیمت والے لین دین کا 100% نمونہ (> $X مالیاتی اثر)
100% استثناء اور اضافہ کا نمونہ
معیار کی نگرانی کے لیے معمول کے لین دین کا 5-10% نمونہ
مسائل کی اطلاع دینے والے صارفین کے لیے 100% آؤٹ پٹ کا نمونہ

ڈیش بورڈ ڈیزائن

ریئل ٹائم آپریشنز پینل:

فعال پھانسیاں
قطار کی گہرائی
عمل درآمد کی شرح (آخری 5 منٹ بمقابلہ بیس لائن)
خرابی کی شرح (آخری 5 منٹ)
P95 تاخیر

کوالٹی ٹرینڈ پینل (24 گھنٹے کا منظر):

درستگی کی شرح کا رجحان (نمونے والے تشخیص سے)
Human override rate trend
استثنیٰ/اضافے کی شرح کا رجحان
اعتماد کے اسکور کی تقسیم

** لاگت کا پینل:**

آج کی ٹوکن کی کھپت بمقابلہ پیشن گوئی
لاگت فی کامیاب کام (رجحان)
غیر معمولی پھانسیاں (باہر ٹوکن کی کھپت)
ہفتہ وار لاگت کا تخمینہ

کاروباری نتائج کا پینل:

ورک فلو کی قسم کے لحاظ سے کام کی تکمیل کی شرح
بہاو کامیابی کی شرح
گاہک کی اطمینان (اگر ماپا جائے)
حجم پر عملدرآمد (پچھلی مدت کے مقابلے میں)

بہاؤ کا پتہ لگانا

ان پٹ ڈسٹری بیوشن مانیٹرنگ

وقت کے ساتھ اپنے ان پٹ ڈیٹا کی تقسیم کے اعدادوشمار کو ٹریک کریں۔ اہم تبدیلیوں پر الرٹ:

الفاظ میں اضافہ (نئی اصطلاحات ظاہر ہو رہی ہیں جو تربیتی ڈیٹا میں نہیں تھیں)
ان پٹ کی لمبائی کی تقسیم میں تبدیلیاں (غیر معمولی طور پر طویل یا مختصر ان پٹ)
ان پٹ میں زبان یا فارمیٹ کی تبدیلی
دستاویز کی پروسیسنگ پائپ لائنوں میں نئی دستاویز کی اقسام ظاہر ہو رہی ہیں۔

ماڈل ورژن میں تبدیلی کا پتہ لگانا

ردعمل کی لمبائی کی تقسیم میں تبدیلیاں
فارمیٹ کی تعمیل کی شرح میں تبدیلی
لیٹنسی پروفائل میں تبدیلیاں
اعتماد سکور کی تقسیم میں تبدیلیاں

تصور کا بہاؤ

وجہ کوڈ کے لحاظ سے انسانی اوور رائیڈ کی شرح (کسی خاص وجہ سے اوور رائیڈز میں اضافہ اس علاقے میں تصور کے بڑھنے کی نشاندہی کرتا ہے)
خرابی کی قسم کی تقسیم میں تبدیلیاں
استثنیٰ میں اضافے کی وجوہات

AI ایجنٹوں کے لیے واقعہ کا جواب

واقعہ کی شدت کی سطح:

سطح	تعریف	رسپانس ٹائم	ایکشن
P1	مالیاتی یا حفاظتی فیصلوں کو متاثر کرنے والے منظم طریقے سے غلط نتائج پیدا کرنے والا ایجنٹ	فوری	ایجنٹ کو غیر فعال کریں، دستی فال بیک
P2	درستگی 10% نیچے بنیادی لائن سے نیچے	30 منٹ	الرٹ، بنیادی وجہ کا اندازہ کریں، غیر فعال کرنے پر غور کریں
P3	استثناء کی شرح بلند، معیار کی سرحد	2 گھنٹے	تحقیقات کریں، قریب سے نگرانی کریں
P4	کارکردگی تنزلی لیکن قابل قبول حد کے اندر	اگلے کاروباری دن	اگلی تکرار سائیکل کے لیے لاگ ان کریں

P1 واقعے کا جواب پلے بک:

پتہ لگانا: نگرانی کے نظام سے خودکار الرٹ محرکات
تخمینہ (5 منٹ): حالیہ پھانسیوں کا جائزہ لیں، غلطی کے پیٹرن کی نشاندہی کریں۔
مشتمل (10 منٹ): دستی فال بیک کے عمل پر جائیں، اگر ضروری ہو تو ایجنٹ کو غیر فعال کریں
تشخیص (30-60 منٹ): بنیادی وجہ کی شناخت کریں (ماڈل کی تبدیلی، ان پٹ ڈسٹری بیوشن شفٹ، فوری ریگریشن، انضمام کی ناکامی)
ریمیڈیٹ: اپلائی فکس (فوری اپ ڈیٹ، ماڈل رول بیک، ان پٹ کی توثیق میں تبدیلی، انضمام فکس)
تصدیق کریں: فکسڈ ایجنٹ کے خلاف گولڈن ڈیٹاسیٹ کی تشخیص چلائیں۔
بحال: ایلیویٹڈ الرٹ حالت میں نگرانی کے ساتھ ایجنٹ کو دوبارہ فعال کریں۔
پوسٹ مارٹم: 48 گھنٹوں کے اندر دستاویز - کیا ناکام ہوا، کیوں، دوبارہ ہونے سے کیسے بچنا ہے

ایجنٹ کی بہتری کے لیے A/B ٹیسٹنگ

اکثر پوچھے گئے سوالات

ہمیں پیداوار میں گولڈن ڈیٹاسیٹ کی تشخیص کتنی بار چلانی چاہیے؟

جب LLM فراہم کنندہ خاموشی سے ماڈل کو اپ ڈیٹ کرتا ہے تو ہم کیسے پتہ لگاتے ہیں؟

پروڈکشن AI ایجنٹس کے لیے ایک قابل قبول درستگی کی حد کیا ہے؟

ہم ایجنٹ کے عمل آوری کے نشانات کو ذخیرہ کرنے کے لیے GDPR اور ڈیٹا کی رازداری کے تقاضوں کو کیسے ہینڈل کرتے ہیں؟

مؤثر معیار کی نگرانی کے لیے ہمیں انسانی جائزے کے نمونے لینے کی شرح کیا ہے؟

کیا ہم کسی اور LLM کا استعمال کرتے ہوئے انسانی جائزہ کے عمل کو خودکار کر سکتے ہیں؟

Testing and Monitoring AI Agents in Production

AI ایجنٹ کی جانچ کیوں مختلف ہے۔

پری پروڈکشن ٹیسٹنگ فریم ورک

ہنر کے لیے یونٹ ٹیسٹ

گولڈن ڈیٹاسیٹ ٹیسٹنگ

انٹیگریشن ٹیسٹ

پروڈکشن مانیٹرنگ آرکیٹیکچر

AI ایجنٹ کی نگرانی کے چار ستون

مشاہداتی عمل درآمد

ڈیش بورڈ ڈیزائن

بہاؤ کا پتہ لگانا

ان پٹ ڈسٹری بیوشن مانیٹرنگ

ماڈل ورژن میں تبدیلی کا پتہ لگانا

تصور کا بہاؤ

AI ایجنٹوں کے لیے واقعہ کا جواب

ایجنٹ کی بہتری کے لیے A/B ٹیسٹنگ

اکثر پوچھے گئے سوالات

اگلے اقدامات

ذہین AI ایجنٹس بنائیں

متعلقہ مضامین

25 Business Process Automation Examples That Actually Work in 2026 (From a Team Running Them in Production)

Building an OpenClaw Skill That Runs Your Shopify Store: Step-by-Step Tutorial

OpenClaw vs Zapier vs n8n (2026): Agents vs Workflows — Which Automation Layer Do You Need?

Performance & Scalability سے مزید

Shopify Speed Optimization: A Technical Checklist That Actually Moves Core Web Vitals (2026)

Technical SEO Audit Checklist 2026: 47 Checks We Run on Every Client Site

Odoo 19 HR: Skills Matrix, Career Plans, Performance Cycles

Odoo 19 Performance Benchmarks: PostgreSQL 17 Tuning Numbers

OpenClaw Cost Optimization and Token Efficiency at Scale

Power BI Incremental Refresh for Tables Over 10 Million Rows

Testing and Monitoring AI Agents in Production

AI ایجنٹ کی جانچ کیوں مختلف ہے۔

پری پروڈکشن ٹیسٹنگ فریم ورک

ہنر کے لیے یونٹ ٹیسٹ

گولڈن ڈیٹاسیٹ ٹیسٹنگ

انٹیگریشن ٹیسٹ

پروڈکشن مانیٹرنگ آرکیٹیکچر

AI ایجنٹ کی نگرانی کے چار ستون

مشاہداتی عمل درآمد

ڈیش بورڈ ڈیزائن

بہاؤ کا پتہ لگانا

ان پٹ ڈسٹری بیوشن مانیٹرنگ

ماڈل ورژن میں تبدیلی کا پتہ لگانا

تصور کا بہاؤ

AI ایجنٹوں کے لیے واقعہ کا جواب

ایجنٹ کی بہتری کے لیے A/B ٹیسٹنگ

اکثر پوچھے گئے سوالات

اگلے اقدامات

ذہین AI ایجنٹس بنائیں

متعلقہ مضامین

25 Business Process Automation Examples That Actually Work in 2026 (From a Team Running Them in Production)

Building an OpenClaw Skill That Runs Your Shopify Store: Step-by-Step Tutorial

OpenClaw vs Zapier vs n8n (2026): Agents vs Workflows — Which Automation Layer Do You Need?

Performance & Scalability سے مزید

Shopify Speed Optimization: A Technical Checklist That Actually Moves Core Web Vitals (2026)

Technical SEO Audit Checklist 2026: 47 Checks We Run on Every Client Site

Odoo 19 HR: Skills Matrix, Career Plans, Performance Cycles

Odoo 19 Performance Benchmarks: PostgreSQL 17 Tuning Numbers

OpenClaw Cost Optimization and Token Efficiency at Scale

Power BI Incremental Refresh for Tables Over 10 Million Rows