Testing and Monitoring AI Agents in Production

A complete guide to testing and monitoring AI agents in production environments. Covers evaluation frameworks, observability, drift detection, and incident response for OpenClaw deployments.

E
ECOSIRE Research and Development Team
|19 مارس 202611 دقائق قراءة2.5k كلمات|

جزء من سلسلة Performance & Scalability

اقرأ الدليل الكامل

اختبار ومراقبة وكلاء الذكاء الاصطناعي في الإنتاج

إن نشر وكيل الذكاء الاصطناعي في الإنتاج لا يمثل نهاية التنفيذ - بل هو بداية نظام تشغيلي غير موجود في البرامج التقليدية. تفشل التطبيقات التقليدية بشكل حتمي: بالنظر إلى نفس المدخلات، تحصل على نفس المخرجات (الخاطئة). يفشل عملاء الذكاء الاصطناعي بشكل احتمالي: نفس المدخلات تنتج مخرجات صحيحة بنسبة 97% من الوقت، ومخرجات غير صحيحة بنسبة 3% من الوقت، ويتغير ذلك بنسبة 3% مع تحديث النماذج، وتغير توزيعات المدخلات، وتطور قواعد العمل.

يغطي هذا الدليل الإطار التشغيلي الكامل لاختبار عوامل الذكاء الاصطناعي قبل نشرها ومراقبتها بشكل مستمر في الإنتاج، مع أنماط محددة لتطبيقات OpenClaw.

الوجبات الرئيسية

  • يتطلب اختبار وكيل الذكاء الاصطناعي كلاً من الاختبارات الوظيفية (المخرجات الصحيحة) والاختبارات السلوكية (الاستدلال المتسق)
  • يعد اختبار الانحدار أمرًا بالغ الأهمية عند تحديث النماذج - افترض أن السلوك سيتغير حتى يثبت العكس
  • يجب أن تتبع مراقبة الإنتاج مقاييس الدقة، وليس فقط التوفر وزمن الوصول
  • يمنع استخدام الرمز المميز ومراقبة التكلفة حدوث زيادات غير متوقعة في الفواتير
  • يكتشف اكتشاف الحالات الشاذة في مخرجات الوكيل تدهور الدقة قبل أن يؤثر على نتائج الأعمال
  • توفر عينات المراجعة البشرية الحقيقة الأساسية لمعايرة المراقبة الآلية
  • تختلف قواعد الاستجابة للحوادث الخاصة بوكلاء الذكاء الاصطناعي بشكل أساسي عن حوادث البرامج التقليدية
  • يتيح إطار اختبار A/B التقييم الآمن للتغييرات السريعة وترقيات النموذج

لماذا يختلف اختبار وكيل الذكاء الاصطناعي

يتطلب اختبار وكلاء الذكاء الاصطناعي عقلية مختلفة جذريًا عن اختبار البرامج التقليدية. في اختبار البرامج التقليدية، تقوم بكتابة حالات الاختبار وتوفير المدخلات والتحقق من المخرجات مقابل القيم المتوقعة. إذا نجح الاختبار بشكل متسق، يكون البرنامج صحيحًا.

لا يعمل عملاء الذكاء الاصطناعي بهذه الطريقة. تكون مخرجاتها احتمالية - يمكن أن تكون صحيحة، أو مخطئة قليلاً، أو خاطئة تمامًا، ويعتمد التوزيع الاحتمالي للنتائج على إصدار النموذج، والسياق المقدم، والصياغة المحددة للمدخلات. ثلاثة تحديات تجعل الاختبارات التقليدية غير كافية:

عدم الحتمية: يمكن أن يؤدي تشغيل نفس الموجه مرتين إلى مخرجات مختلفة. يجب أن تقيم الاختبارات جودة الإخراج ضمن نطاق، وليس المساواة التامة.

حساسية إصدار النموذج: عندما يقوم موفر LLM بإصدار إصدار نموذج جديد، قد يتغير سلوك وكيلك بطرق غير واضحة على الفور. النموذج الذي كان دقيقًا في مهمتك بنسبة 94% قد يتحسن إلى 96% أو يتراجع إلى 91% - أنت بحاجة إلى آليات لاكتشاف ذلك.

التبعية للسياق: يعتمد سلوك الوكيل بشكل كبير على السياق المقدم (المستندات المستردة، وسجل المحادثات، وتعليمات النظام). يمكن أن تؤثر التغييرات الصغيرة في تجميع السياق بشكل كبير على جودة المخرجات.


إطار اختبار ما قبل الإنتاج

اختبارات الوحدة للمهارات

يجب أن تحتوي كل مهارة OpenClaw على مجموعة اختبار تتحقق من صحة سلوكها من خلال عينة تمثيلية من المدخلات. هذه الاختبارات ليست اختبارات تأكيد يساوي قياسية، فهي تستخدم إطار تقييم يسجل جودة المخرجات.

هيكل الاختبار لمهارة مراجعة العقد:

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

معايير التقييم لكل اختبار:

  • تذكر (هل وجد الوكيل ما كان هناك؟)
  • الدقة (هل قام الوكيل بوضع علامة على العناصر ذات الصلة فقط؟)
  • دقة تقييم المخاطر (هل مستوى المخاطر مناسب؟)
  • اكتمال الإجراءات الموصى بها
  • الامتثال لتنسيق الإخراج (الحقول المطلوبة موجودة، البنية الصحيحة)

اختبار مجموعة البيانات الذهبية

احتفظ بمجموعة بيانات ذهبية مكونة من 50-200 مدخلات تمثيلية مع مخرجات متوقعة تم التحقق منها بواسطة الإنسان. قبل كل عملية نشر للإنتاج، قم بتشغيل الوكيل مقابل مجموعة البيانات هذه وحساب مقاييس الدقة. يتم حظر عمليات النشر التي تقل دقتها عن الحد المسموح به.

** بناء مجموعة البيانات الذهبية: **

  1. جمع 200 مدخل حقيقي من حركة الإنتاج (مجهولة المصدر إذا لزم الأمر)
  2. اطلب من خبراء المجال مراجعة المخرجات الصحيحة لكل منها وإضافة تعليقات توضيحية إليها
  3. قم بتقسيم مجموعة البيانات إلى طبقات لتغطية الحالات المتطورة، والمدخلات غير العادية، وأنماط الأخطاء الشائعة
  4. إنشاء مقاييس دقة أساسية مقابل مجموعة البيانات الذهبية
  5. تعامل مع أي تراجع تحت خط الأساس باعتباره مانعًا للنشر

التقييم الآلي لمجموعة البيانات الذهبية: قم بتعيين أو تدريب ماجستير في القانون كمقيم — استدعاء منفصل لماجستير في القانون يأخذ مخرجات الوكيل والمخرجات المتوقعة التي تم التحقق منها من قبل الإنسان وينتج درجة التشابه/التصحيح. هذا هو نمط "LLM كقاضي". إلى جانب المراجعة البشرية للحالات الحدودية، فإنه يقيس تقييم مجموعة البيانات الذهبية إلى عمليات التشغيل المتكررة.

اختبارات التكامل

اختبار سلوك الوكيل بشكل شامل عبر النظام بأكمله، بما في ذلك عمليات التكامل:

سيناريوهات اختبار التكامل:

  • يقرأ الوكيل من ERP، ويعالج البيانات، ويعيد الكتابة — ويتحقق من سلامة البيانات
  • يقوم الوكيل باستدعاء واجهة برمجة التطبيقات الخارجية، ويتعامل مع استجابات النجاح والفشل
  • يقوم الوكيل بالتنسيق مع وكيل آخر في سير عمل متعدد الوكلاء
  • يتعامل الوكيل مع المهلات وحدود الأسعار وعدم توفر واجهة برمجة التطبيقات بأمان
  • يقوم الوكيل بإنتاج مخرجات تؤدي إلى تشغيل العمليات التجارية النهائية بشكل صحيح

محاكاة اختبار الفشل:

  • حقن فشل المهلة في مكالمات API الخارجية
  • تقديم بيانات مشوهة أو مفقودة
  • محاكاة عدم توفر موفر النموذج
  • اختبار التدهور الرشيق عندما لا يتمكن الوكيل من إكمال المهمة

هندسة مراقبة الإنتاج

الركائز الأربع لمراقبة عملاء الذكاء الاصطناعي

الركيزة 1: الصحة التشغيلية (مراقبة البرامج القياسية)

  • الجهوزية والتوافر
  • الكمون لكل تنفيذ (P50، P95، P99)
  • معدل الخطأ (تعطل الوكيل، الاستثناءات غير المعالجة، فشل واجهة برمجة التطبيقات)
  • عمق قائمة الانتظار والإنتاجية
  • استخدام الموارد (وحدة المعالجة المركزية، الذاكرة، التزامن API)

الركيزة 2: جودة المخرجات (مراقبة خاصة بالذكاء الاصطناعي)

  • معدل الدقة في عينات المخرجات (البشرية أو LLM-المحكمين)
  • كشف الهلوسة (المخرجات التي تحتوي على معلومات ليست في السياق المقدم)
  • معدل الامتثال للتنسيق (المخرجات التي تلبي الهيكل المطلوب)
  • توزيع نقاط الثقة (الوكلاء الذين يعبرون فجأة عن انخفاض تدهور إشارة الثقة)
  • معدل إكمال المهمة (يقوم الوكيل بإنتاج مخرجات كاملة بنجاح مقابل إرجاع خطأ أو استجابة غير كاملة)

الركيزة 3: تأثير الأعمال (مراقبة النتائج)

  • معدل نجاح الإجراء النهائي (تم تقديم الطلبات بنجاح، وتوجيه الموافقات بشكل صحيح، وما إلى ذلك)
  • معدل التجاوز البشري (عدد المرات التي يتجاوز فيها البشر قرارات الوكيل)
  • رضا العملاء عن الوكلاء الذين يتعاملون مع العملاء (CSAT، NPS)
  • معدل الاستثناء (تم تصعيد المدخلات إلى المراجعة البشرية)
  • وقت دورة العملية (وقت إكمال المهمة من البداية إلى النهاية)

الركيزة 4: التكلفة (مراقبة تكلفة الرمز المميز وواجهة برمجة التطبيقات)

  • استهلاك الرمز المميز لكل تنفيذ (الإدخال + الإخراج)
  • التكلفة لكل مهمة ناجحة
  • الاستخدام غير الطبيعي للرموز (تستهلك عمليات التنفيذ رموزًا أكثر بكثير من متوسط الحقن الفوري للإشارة أو تلوث السياق)
  • اتجاه التكلفة اليومية/الأسبوعية مقابل التوقعات

تنفيذ إمكانية الملاحظة

يوفر OpenClaw تتبعًا مدمجًا للتنفيذ. ينتج عن كل تشغيل وكيل تتبعًا منظمًا يتضمن:

  • معرف التنفيذ والطابع الزمني
  • إدخال البيانات (مع تطبيق تنقيح معلومات تحديد الهوية الشخصية)
  • تم استرداد السياق (أجزاء RAG، وتحولات المحادثة السابقة)
  • تم إرسال المطالبة الكاملة إلى LLM
  • استجابة LLM
  • خطوات ما بعد المعالجة
  • الإخراج النهائي
  • عدد الرموز والتكلفة
  • إجمالي وقت التنفيذ
  • أي استثناءات أو تصعيدات

تتيح بيانات التتبع هذه تصحيح الأخطاء اللاحق عندما يقوم الوكيل بإنتاج مخرجات غير صحيحة. يمكنك إعادة تشغيل التنفيذ الدقيق ورؤية كل خطوة.

تتبع استراتيجية أخذ العينات:

  • عينة 100% من المعاملات ذات القيمة العالية (> التأثير النقدي X $)
  • عينة 100% من الاستثناءات والتصعيد
  • عينة من 5-10% من المعاملات الروتينية لمراقبة الجودة
  • عينة 100% من مخرجات تقارير العملاء عن المشكلات

تصميم لوحة القيادة

تقوم لوحات معلومات مراقبة وكيل الذكاء الاصطناعي الفعالة بتوصيل معلومات مختلفة عن لوحات معلومات التطبيقات التقليدية. اللوحات الرئيسية:

** لوحة العمليات في الوقت الحقيقي: **

  • عمليات الإعدام النشطة
  • عمق قائمة الانتظار
  • معدل التنفيذ (آخر 5 دقائق مقابل خط الأساس)
  • معدل الخطأ (آخر 5 دقائق)
  • الكمون P95

لوحة اتجاهات الجودة (عرض على مدار 24 ساعة):

  • اتجاه معدل الدقة (من تقييم العينات)
  • اتجاه معدل تجاوز الإنسان
  • اتجاه معدل الاستثناء/التصعيد
  • توزيع درجات الثقة

لوحة التكلفة:

  • استهلاك الرمز المميز اليوم مقابل التوقعات
  • التكلفة لكل مهمة ناجحة (الاتجاه)
  • عمليات الإعدام الشاذة (استهلاك الرمز المميز)
  • توقعات التكلفة الأسبوعية

لوحة نتائج الأعمال:

  • معدل إنجاز المهام حسب نوع سير العمل
  • معدل النجاح المصب
  • رضا العملاء (إذا تم قياسه)
  • الحجم المعالج (مقارنة بالفترة السابقة)

كشف الانجراف

أحد أكثر أوضاع فشل وكيل الذكاء الاصطناعي خطورة هو الانجراف التدريجي - حيث يتدهور أداء الوكيل ببطء بمرور الوقت مع تحول توزيع المدخلات بعيدًا عن توزيع التدريب، أو عندما يتم تحديث النموذج من قبل الموفر.

مراقبة توزيع المدخلات

تتبع الإحصائيات حول توزيع بيانات الإدخال الخاصة بك مع مرور الوقت. تنبيه بشأن التحولات الهامة:

  • انحراف المفردات (ظهور مصطلحات جديدة لم تكن موجودة في بيانات التدريب)
  • تغييرات توزيع طول الإدخال (مدخلات طويلة أو قصيرة بشكل غير عادي)
  • تغييرات اللغة أو التنسيق في المدخلات
  • ظهور أنواع جديدة من المستندات في مسارات معالجة المستندات

اكتشاف تغيير إصدار النموذج

يقوم مقدمو LLM بتحديث نماذجهم بشكل مستمر. بعض التحديثات صامتة (نفس معرف الطراز، وأوزان مختلفة). مراقبة ل:

  • تغييرات توزيع طول الاستجابة
  • تغييرات معدل الامتثال للتنسيق
  • تغييرات الملف الشخصي الكمون
  • تغييرات توزيع نقاط الثقة

عندما يتغير أي من هذه المقاييس بشكل كبير، قم بتشغيل تقييم مجموعة البيانات الذهبية على الفور لتحديد تأثير الدقة.

مفهوم الانجراف

تتغير قواعد العمل ومعرفة المجال بمرور الوقت. سينتج عن الوكيل الذي تم تدريبه على تطبيق قواعد التسعير لعام 2024 مخرجات غير صحيحة عندما تدخل قواعد التسعير لعام 2025 حيز التنفيذ. مراقب:

  • معدل التجاوز البشري حسب كود السبب (زيادة التجاوزات لسبب محدد تشير إلى انحراف المفهوم في تلك المنطقة)
  • تغييرات توزيع نوع الخطأ
  • أسباب تصعيد الاستثناء

الاستجابة للحوادث لوكلاء الذكاء الاصطناعي

تختلف حوادث عملاء الذكاء الاصطناعي عن حوادث البرامج التقليدية. لا يكون الفشل في كثير من الأحيان مجرد انهيار، بل هو تدهور في جودة المخرجات يؤثر بشكل طفيف على نتائج الأعمال.

مستويات خطورة الحادث:

المستوىالتعريفوقت الاستجابةالعمل
ص1وكيل ينتج مخرجات خاطئة بشكل منهجي تؤثر على القرارات المالية أو قرارات السلامةفوريتعطيل الوكيل، الرجوع اليدوي
ص2تدهورت الدقة > 10% تحت خط الأساس30 دقيقةتنبيه، تقييم السبب الجذري، النظر في تعطيل
ص3معدل الاستثناء مرتفع، جودة الحدودساعتينالتحقيق والمراقبة عن كثب
ص4الأداء متدهور ولكن ضمن الحد المقبوليوم العمل التاليسجل لدورة التكرار التالية

دليل التشغيل للاستجابة للحوادث P1:

  1. الكشف: مشغلات التنبيه الآلي من نظام المراقبة
  2. التقييم (5 دقائق): مراجعة عمليات التنفيذ الأخيرة وتحديد نمط الخطأ
  3. تحتوي على (10 دقائق): قم بالتبديل إلى العملية الاحتياطية اليدوية، وقم بتعطيل الوكيل إذا لزم الأمر
  4. التشخيص (30-60 دقيقة): تحديد السبب الجذري (تغيير النموذج، تحول توزيع المدخلات، الانحدار السريع، فشل التكامل)
  5. العلاج: تطبيق الإصلاح (التحديث الفوري، التراجع عن النموذج، تغيير التحقق من صحة الإدخال، إصلاح التكامل)
  6. التحقق: قم بتشغيل تقييم مجموعة البيانات الذهبية مقابل الوكيل الثابت
  7. الاستعادة: إعادة تمكين الوكيل من خلال المراقبة في حالة التنبيه المرتفعة
  8. بعد الوفاة: قم بالتوثيق في غضون 48 ساعة - ما الذي فشل، ولماذا، وكيفية منع تكراره

اختبار A/B لتحسينات الوكيل

يتطلب تحسين وكلاء الذكاء الاصطناعي تقييم التغييرات بأمان قبل النشر الكامل. يتيح اختبار A/B ما يلي:

اختبار وضع الظل: قم بتشغيل إصدار الوكيل الجديد على حركة الإنتاج دون استخدام مخرجاته - قارن مخرجات الظل بمخرجات الوكيل الحالية لتحديد الفرق قبل أن يؤثر على العملاء.

نشر Canary: توجيه 5-10% من حركة الإنتاج إلى إصدار الوكيل الجديد. مراقبة مقاييس الجودة لمجموعات الكناري مقابل مجموعات التحكم. قم بالتراجع إلى الأمام إذا تحسنت المقاييس أو استمرت، ثم قم بالتراجع إذا تدهورت.

البطل/المنافس: وكيل الإنتاج الحالي هو "البطل". إصدارات الوكيل الجديدة هي "المنافسون". يجب أن يثبت المتنافسون تحسنًا ملحوظًا إحصائيًا في مجموعة البيانات الذهبية قبل الترقية إلى البطل.

مشغلات التراجع: حدد مشغلات التراجع التلقائية - إذا انخفضت دقة الكناري إلى ما دون الحد أو زاد معدل التجاوز البشري فوق الحد، فارجع تلقائيًا إلى البطل.


الأسئلة المتداولة

كم مرة يجب علينا إجراء تقييمات مجموعة البيانات الذهبية في الإنتاج؟

يتم التشغيل في كل عملية نشر (بما في ذلك تغييرات إصدار النموذج)، أسبوعيًا كفحص صحي، وعلى الفور عندما تكتشف المراقبة حالات شاذة. بالنسبة للوكلاء ذوي المخاطر العالية (القرارات المالية، والوثائق الطبية)، يتم تشغيلهم يوميًا. يمكن لخطوط أنابيب CI/CD الآلية تشغيل تقييم مجموعة البيانات الذهبية تلقائيًا عند كل تغيير في التعليمات البرمجية.

كيف نكتشف عندما يقوم موفر LLM بتحديث النموذج بصمت؟

راقب خصائص الاستجابة التي يجب أن تكون مستقرة: متوسط ​​طول الاستجابة، ومعدل الامتثال للتنسيق، وتوزيع نقاط الثقة، وملف تعريف وقت الاستجابة. يؤدي أي تغيير كبير في هذه المقاييس إلى إجراء تقييم ذهبي لمجموعة البيانات لتحديد تأثير الدقة. يقدم بعض موفري الخدمة إصدارًا للنموذج يتم تثبيته على إصدار معين — استخدم هذا حيثما كان ذلك متاحًا.

ما هو حد الدقة المقبول لوكلاء الذكاء الاصطناعي للإنتاج؟

هذا يعتمد كليًا على حالة الاستخدام وتكلفة الأخطاء. بالنسبة للوكلاء الذين يتخذون قرارات مالية مستقلة، عادةً ما تكون الدقة المطلوبة أكثر من 98%. بالنسبة للوكلاء الذين ينتجون مسودات يراجعها البشر، غالبًا ما تكون نسبة 85-90% مقبولة لأن الإنسان يرتكب الأخطاء. بالنسبة للوكلاء الذين يقومون بإنشاء تحليلات داخلية حيث تكون الأخطاء منخفضة المخاطر، قد تكون نسبة 80% كافية. حدد الحد الأدنى بناءً على تحليل تكلفة الخطأ، وليس على معايير عشوائية.

كيف نتعامل مع متطلبات اللائحة العامة لحماية البيانات ومتطلبات خصوصية البيانات لتخزين آثار تنفيذ الوكيل؟

يدعم نظام التتبع الخاص بـ OpenClaw تنقيح معلومات تحديد الهوية الشخصية (PII) قبل التخزين - قم بتكوين الحقول التي سيتم تنقيحها في تكوين التتبع. يتم تخزين الآثار مع فترات الاحتفاظ القابلة للتكوين للتوافق مع متطلبات تقليل البيانات. بالنسبة لعمليات النشر المستندة إلى الاتحاد الأوروبي، يمكن تكوين تخزين التتبع لمناطق الاتحاد الأوروبي فقط. يمكن للأفراد طلب حذف بياناتهم من الآثار بموجب أحكام القانون العام لحماية البيانات (GDPR) المتعلقة بالحق في المحو.

ما هو معدل أخذ عينات المراجعة البشرية الذي نحتاجه لمراقبة الجودة بشكل فعال؟

بالنسبة لمعظم الوكلاء، فإن أخذ عينات بنسبة 2-5% من مخرجات الإنتاج يوفر مراقبة جودة ذات دلالة إحصائية. بالنسبة للعوامل ذات القيمة العالية أو عالية المخاطر، قم بزيادة النسبة إلى 10-20%. يجب أن تكون عملية المراجعة منظمة، حيث يستخدم المراجعون قواعد موحدة بدلاً من الانطباعات العامة. تقدم واجهة المراجعة الخاصة بـ OpenClaw عينات من المخرجات مع نموذج التقييم وتلتقط التعليقات المنظمة.

هل يمكننا أتمتة عملية المراجعة البشرية باستخدام ماجستير إدارة أعمال آخر؟

جزئيا. تعمل أنماط "LLM as القاضي" بشكل جيد لتقييم تنسيق المخرجات والاكتمال والدقة الواقعية الأساسية. إنهم يعملون بشكل أقل جودة لتقييم الصحة الخاصة بالمجال (سواء كان تقييم مخاطر العقد صحيحًا يتطلب خبرة قانونية، وليس حكم الذكاء الاصطناعي العام). استخدم تقييم LLM الآلي للحجم والمراجعة البشرية للمعايرة والتحقق من الصحة.


الخطوات التالية

يتطلب تنفيذ الاختبار والمراقبة على مستوى الإنتاج لوكلاء الذكاء الاصطناعي خبرة في كل من أنظمة الذكاء الاصطناعي وممارسات DevOps. يتضمن تطبيق OpenClaw الخاص بـ ECOSIRE بنية مراقبة مصممة لسير عمل الوكيل المحدد، ولوحات المعلومات المكونة مسبقًا، وسياسات التنبيه، وسجلات التشغيل للاستجابة للحوادث.

استكشف خدمات دعم وصيانة OpenClaw للتعرف على خيارات المراقبة والتحسين المستمرة، أو جدولة استشارة لمناقشة بنية المراقبة لنشر OpenClaw الحالي أو المخطط له.

E

بقلم

ECOSIRE Research and Development Team

بناء منتجات رقمية بمستوى المؤسسات في ECOSIRE. مشاركة رؤى حول تكاملات Odoo وأتمتة التجارة الإلكترونية وحلول الأعمال المدعومة بالذكاء الاصطناعي.

الدردشة على الواتساب