Testing and Monitoring AI Agents in Production

A complete guide to testing and monitoring AI agents in production environments. Covers evaluation frameworks, observability, drift detection, and incident response for OpenClaw deployments.

E
ECOSIRE Research and Development Team
|19 mars 202614 min de lecture3.1k Mots|

Fait partie de notre série Performance & Scalability

Lire le guide complet

Test et surveillance des agents IA en production

Le déploiement d'un agent IA en production ne marque pas la fin de la mise en œuvre : c'est le début d'une discipline opérationnelle qui n'existe pas pour les logiciels traditionnels. Les applications traditionnelles échouent de manière déterministe : avec la même entrée, vous obtenez la même (mauvaise) sortie. Les agents d’IA échouent de manière probabiliste : la même entrée produit une sortie correcte 97 % du temps et une sortie subtilement incorrecte 3 % du temps, et ces 3 % changent à mesure que les modèles sont mis à jour, que les distributions d’entrées changent et que les règles métier évoluent.

Ce guide couvre le cadre opérationnel complet pour tester les agents IA avant leur déploiement et les surveiller en continu en production, avec des modèles spécifiques pour les implémentations d'OpenClaw.

Points clés à retenir

  • Les tests des agents IA nécessitent à la fois des tests fonctionnels (sortie correcte) et des tests comportementaux (raisonnement cohérent)
  • Les tests de régression sont essentiels lors de la mise à jour des modèles : supposez que le comportement changera jusqu'à preuve du contraire.
  • La surveillance de la production doit suivre les mesures de précision, pas seulement la disponibilité et la latence
  • L'utilisation des jetons et la surveillance des coûts évitent les pics de facturation inattendus
  • La détection des anomalies dans les sorties des agents détecte la dégradation de la précision avant qu'elle n'affecte les résultats commerciaux
  • L'échantillonnage par examen humain fournit une vérité terrain pour calibrer la surveillance automatisée
  • Les playbooks de réponse aux incidents pour les agents IA diffèrent fondamentalement des incidents logiciels traditionnels
  • Le cadre de tests A/B permet une évaluation sûre des modifications rapides et des mises à niveau du modèle

Pourquoi les tests des agents IA sont différents

Tester des agents d’IA nécessite un état d’esprit fondamentalement différent de celui des tests de logiciels traditionnels. Dans les tests logiciels traditionnels, vous rédigez des scénarios de test, fournissez des entrées et vérifiez les sorties par rapport aux valeurs attendues. Si le test réussit régulièrement, le logiciel est correct.

Les agents IA ne fonctionnent pas de cette façon. Leurs résultats sont probabilistes : ils peuvent être corrects, légèrement erronés ou complètement faux, et la distribution de probabilité des résultats dépend de la version du modèle, du contexte fourni et de la formulation spécifique des entrées. Trois défis rendent les tests traditionnels inadéquats :

Non-déterminisme : La même invite exécutée deux fois peut produire des sorties différentes. Les tests doivent évaluer la qualité du résultat dans une plage, et non une égalité exacte.

Sensibilité de la version du modèle : Lorsque votre fournisseur LLM publie une nouvelle version du modèle, le comportement de votre agent peut changer d'une manière qui n'est pas immédiatement évidente. Un modèle précis à 94 % pour votre tâche peut s'améliorer à 96 % ou se dégrader à 91 % : vous avez besoin de mécanismes pour détecter cela.

Dépendance du contexte : Le comportement de l'agent dépend fortement du contexte fourni (documents récupérés, historique des conversations, instructions système). De petits changements dans l’assemblage du contexte peuvent affecter considérablement la qualité du résultat.


Cadre de tests de pré-production

Tests unitaires de compétences

Chaque compétence OpenClaw doit disposer d'une suite de tests qui valide son comportement avec un échantillon représentatif d'entrées. Ces tests ne sont pas des tests d'affirmation d'égalité standard : ils utilisent un cadre d'évaluation qui évalue la qualité des résultats.

Structure de test pour une revue de contrat Compétence :

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

Critères d'évaluation pour chaque test :

  • Rappel (l'agent a-t-il trouvé ce qu'il y avait ?)
  • Précision (l'agent a-t-il signalé uniquement les éléments pertinents ?)
  • Précision de l'évaluation des risques (le niveau de risque est-il approprié ?)
  • exhaustivité des actions recommandées
  • Conformité du format de sortie (champs obligatoires présents, structure correcte)

Tests d'ensembles de données dorés

Maintenez un ensemble de données doré de 50 à 200 entrées représentatives avec des résultats attendus vérifiés par l'homme. Avant chaque déploiement de production, exécutez l'agent sur cet ensemble de données et calculez les métriques de précision. Les déploiements dont la précision est inférieure à votre seuil sont bloqués.

Construction d'un ensemble de données en or :

  1. Collectez 200 entrées réelles du trafic de production (anonymisées si nécessaire)
  2. Demandez aux experts du domaine d'examiner et d'annoter les résultats corrects pour chacun
  3. Stratifiez l'ensemble de données pour couvrir les cas extrêmes, les entrées inhabituelles et les modèles d'erreur courants
  4. Établir des mesures de précision de base par rapport à l'ensemble de données d'or
  5. Traitez toute régression en dessous de la ligne de base comme un bloqueur de déploiement

Évaluation automatisée pour un ensemble de données privilégié : Embauchez ou formez un LLM en tant qu'évaluateur : un appel LLM distinct qui prend le résultat de l'agent et le résultat attendu vérifié par l'homme et produit un score de similarité/exactitude. Il s'agit du modèle "LLM en tant que juge". Combiné à l’examen humain des cas limites, il adapte l’évaluation des ensembles de données privilégiées à des exécutions fréquentes.

Tests d'intégration

Testez le comportement des agents de bout en bout sur l’ensemble du système, y compris les intégrations :

Scénarios de tests d'intégration :

  • L'agent lit depuis l'ERP, traite les données, réécrit - vérifie l'intégrité des données
  • L'agent appelle l'API externe, gère les réponses de réussite et d'échec
  • L'agent se coordonne avec un autre agent dans un flux de travail multi-agents
  • L'agent gère les délais d'attente, les limites de débit et l'indisponibilité de l'API avec élégance
  • L'agent produit des sorties qui déclenchent correctement les processus métier en aval

Test de défaillance simulée :

  • Injecter des échecs de délai d'attente dans les appels d'API externes
  • Fournir des données mal formées ou manquantes
  • Simuler l'indisponibilité du fournisseur de modèles
  • Testez la dégradation progressive lorsque l'agent ne peut pas terminer la tâche

Architecture de suivi de production

Quatre piliers de la surveillance des agents IA

Pilier 1 : Santé opérationnelle (surveillance logicielle standard)

  • Disponibilité et disponibilité
  • Latence par exécution (P50, P95, P99)
  • Taux d'erreur (plantages d'agent, exceptions non gérées, échecs d'API)
  • Profondeur et débit de la file d'attente
  • Utilisation des ressources (CPU, mémoire, concurrence API)

Pilier 2 : Qualité des résultats (surveillance spécifique à l'IA)

  • Taux de précision sur les sorties échantillonnées (humaines ou jugées LLM)
  • Détection d'hallucinations (sorties contenant des informations hors du contexte fourni)
  • Taux de conformité du format (sorties répondant à la structure requise)
  • Distribution du score de confiance (agents qui expriment soudainement une dégradation du signal de confiance plus faible)
  • Taux d'achèvement des tâches (l'agent produit avec succès une sortie complète plutôt que renvoie une erreur ou une réponse incomplète)

Pilier 3 : Impact sur les entreprises (suivi des résultats)

  • Taux de réussite des actions aval (commandes passées avec succès, approbations correctement acheminées, etc.)
  • Taux de priorité humaine (à quelle fréquence les humains annulent les décisions de l'agent)
  • Satisfaction client pour les agents en contact direct (CSAT, NPS)
  • Taux d'exception (entrées transmises à un examen humain)
  • Temps de cycle du processus (temps d'achèvement des tâches de bout en bout)

Pilier 4 : Coût (suivi des coûts des jetons et des API)

  • Consommation de tokens par exécution (entrée + sortie)
  • Coût par tâche réussie
  • Utilisation anormale des jetons (exécutions consommant beaucoup plus de jetons que l'injection moyenne d'invite de signal ou la pollution du contexte)
  • Tendance des coûts quotidiens/hebdomadaires par rapport aux prévisions

Implémentation de l'observabilité

OpenClaw fournit un suivi d'exécution intégré. Chaque exécution d'agent produit une trace structurée comprenant :

  • ID d'exécution et horodatage
  • Données d'entrée (avec rédaction des PII appliquée)
  • Contexte récupéré (morceaux RAG, tours de conversation antérieurs)
  • Invite complète envoyée à LLM
  • Réponse LLM
  • Étapes de post-traitement
  • Sortie finale
  • Nombre de jetons et coût
  • Temps total d'exécution
  • Toute exception ou escalade

Ces données de trace permettent un débogage post-hoc lorsqu'un agent produit une sortie incorrecte. Vous pouvez rejouer l'exécution exacte et voir chaque étape.

Stratégie d'échantillonnage de traces :

  • Échantillonnez 100 % des transactions de grande valeur (impact monétaire > X $)
  • Échantillonner 100 % des exceptions et des escalades
  • Échantillonner 5 à 10 % des transactions de routine pour le contrôle de la qualité
  • Échantillonner 100 % des résultats pour les clients signalant des problèmes

Conception du tableau de bord

Les tableaux de bord efficaces de surveillance des agents IA communiquent des informations différentes de celles des tableaux de bord d'applications traditionnels. Panneaux clés :

Panneau d'opérations en temps réel :

  • Exécutions actives
  • Profondeur de la file d'attente
  • Taux d'exécution (5 dernières minutes par rapport à la ligne de base)
  • Taux d'erreur (5 dernières minutes)
  • Latence P95

Panneau des tendances de qualité (vue 24 heures) :

  • Tendance du taux de précision (à partir d'une évaluation échantillonnée)
  • Tendance du taux de dépassement humain
  • Tendance du taux d'exception/escalade
  • Répartition du score de confiance

Panneau de coûts :

  • Consommation de jetons d'aujourd'hui par rapport aux prévisions
  • Coût par tâche réussie (tendance)
  • Exécutions anormales (consommation de jetons aberrante)
  • Projection des coûts hebdomadaires

Panel des résultats commerciaux :

  • Taux d'achèvement des tâches par type de workflow
  • Taux de réussite en aval
  • Satisfaction client (si mesurée)
  • Volume traité (par rapport à la période précédente)

Détection de dérive

L'un des modes de défaillance des agents d'IA les plus insidieux est la dérive progressive : les performances de l'agent se dégradent lentement au fil du temps à mesure que la distribution des entrées s'éloigne de la distribution de formation ou que le modèle est mis à jour par le fournisseur.

Surveillance de la distribution des entrées

Suivez les statistiques sur la distribution de vos données d’entrée au fil du temps. Alerte sur les changements significatifs :

  • Dérive du vocabulaire (apparition de nouveaux termes qui ne figuraient pas dans les données d'entraînement)
  • Modifications de la distribution de la longueur d'entrée (entrées inhabituellement longues ou courtes)
  • Changements de langue ou de format dans les entrées
  • Nouveaux types de documents apparaissant dans les pipelines de traitement des documents

Détection de changement de version du modèle

Les fournisseurs LLM mettent à jour leurs modèles en permanence. Certaines mises à jour sont silencieuses (même identifiant de modèle, poids différents). Surveiller :

  • Modifications de la distribution de la longueur de réponse
  • Modifications du taux de conformité du format
  • Modifications du profil de latence
  • Modifications de la distribution du score de confiance

Lorsque l’une de ces mesures change de manière significative, exécutez immédiatement l’évaluation de l’ensemble de données privilégiées pour quantifier l’impact sur la précision.

Dérive conceptuelle

Les règles métier et les connaissances du domaine évoluent avec le temps. Un agent formé pour appliquer les règles de tarification 2024 produira des résultats incorrects lorsque les règles de tarification 2025 entreront en vigueur. Surveiller :

  • Taux de dérogation humaine par code de raison (une augmentation des dérogations pour une raison spécifique indique une dérive du concept dans ce domaine)
  • Modifications de la distribution des types d'erreurs
  • Raisons d'escalade des exceptions

Réponse aux incidents pour les agents IA

Les incidents liés aux agents IA diffèrent des incidents logiciels traditionnels. Souvent, l'échec n'est pas un crash : il s'agit d'une dégradation de la qualité de la production qui affecte subtilement les résultats de l'entreprise.

Niveaux de gravité des incidents :

NiveauDéfinitionTemps de réponseActions
P1Agent produisant des résultats systématiquement erronés affectant les décisions financières ou de sécuritéImmédiatDésactiver l'agent, secours manuel
P2Précision dégradée >10 % en dessous de la ligne de base30 minutesAlerter, évaluer la cause première, envisager de désactiver
P3Taux d'exception élevé, qualité limite2 heuresEnquêter, surveiller de près
P4Performances dégradées mais dans un seuil acceptableJour ouvrable suivantConnectez-vous pour le prochain cycle d'itération

Manuel de réponse aux incidents P1 :

  1. Détecter : Déclencheurs d'alertes automatisés du système de surveillance
  2. Évaluer (5 minutes) : Examiner les exécutions récentes, identifier le modèle d'erreur
  3. Contient (10 minutes) : Passez au processus de secours manuel, désactivez l'agent si nécessaire
  4. ** Diagnostiquer (30 à 60 minutes) :** Identifier la cause première (changement de modèle, changement de distribution des entrées, régression rapide, échec d'intégration)
  5. Correction : Appliquer le correctif (mise à jour rapide, restauration du modèle, modification de la validation des entrées, correctif d'intégration)
  6. Valider : Exécuter une évaluation de l'ensemble de données Golden par rapport à un agent fixe
  7. Restaurer : Réactiver l'agent avec surveillance en état d'alerte élevée
  8. Post-mortem : Documentez dans les 48 heures – qu'est-ce qui a échoué, pourquoi, comment éviter la récidive

Tests A/B pour les améliorations des agents

L'amélioration des agents IA nécessite d'évaluer en toute sécurité les modifications avant le déploiement complet. Les tests A/B permettent ceci :

Tests en mode fantôme : Exécutez la nouvelle version de l'agent sur le trafic de production sans utiliser ses sorties : comparez les sorties fantômes aux sorties actuelles de l'agent pour quantifier la différence avant qu'elle n'affecte les clients.

Déploiement Canary : Acheminez 5 à 10 % du trafic de production vers la nouvelle version de l'agent. Surveiller les mesures de qualité sur la population de canaris par rapport à la population témoin. Avancez si les métriques s’améliorent ou se maintiennent, reculez si elles se dégradent.

Champion/challenger : L'agent de production actuel est le « champion ». Les nouvelles versions d'agent sont des « challengers ». Les challengers doivent prouver une amélioration statistiquement significative sur l'ensemble de données en or avant d'être promus champion.

Déclencheurs de restauration : Définissez des déclencheurs de restauration automatisés : si la précision du canari tombe en dessous du seuil ou si le taux de neutralisation humaine augmente au-dessus du seuil, revenez automatiquement au champion.


Questions fréquemment posées

À quelle fréquence devons-nous exécuter des évaluations d'ensembles de données privilégiées en production ?

Exécutez-le sur chaque déploiement (y compris les modifications de version du modèle), chaque semaine en tant que contrôle de santé et immédiatement lorsque la surveillance détecte des anomalies. Pour les agents à enjeux élevés (décisions financières, documentation médicale), exécutez quotidiennement. Les pipelines CI/CD automatisés peuvent déclencher automatiquement une évaluation des ensembles de données privilégiées à chaque modification de code.

Comment détecter lorsque le fournisseur LLM met à jour le modèle en mode silencieux ?

Surveillez les caractéristiques de réponse qui doivent être stables : longueur de réponse moyenne, taux de conformité du format, distribution du score de confiance et profil de latence. Any significant change in these metrics triggers a golden dataset evaluation to quantify accuracy impact. Certains fournisseurs proposent une gestion des versions de modèle qui s'épingle sur une version spécifique – utilisez-la lorsqu'elle est disponible.

Quel est un seuil de précision acceptable pour les agents d'IA de production ?

Cela dépend entièrement du cas d’utilisation et du coût des erreurs. Pour les agents prenant des décisions financières autonomes, une précision de plus de 98 % est généralement requise. Pour les agents produisant des brouillons que des humains examinent, un taux de 85 à 90 % est souvent acceptable, car l'humain détecte les erreurs. Pour les agents générant des analyses internes où les erreurs présentent peu d’enjeux, 80 % peuvent suffire. Définissez votre seuil en fonction d'une analyse du coût des erreurs, et non de références arbitraires.

Comment gérons-nous les exigences du RGPD et de confidentialité des données pour le stockage des traces d'exécution des agents ?

Le système de trace d'OpenClaw prend en charge la rédaction des informations personnelles avant le stockage : configurez les champs à supprimer dans la configuration de trace. Les traces sont stockées avec des périodes de conservation configurables pour se conformer aux exigences de minimisation des données. Pour les déploiements basés dans l'UE, le stockage de trace peut être configuré dans des régions de l'UE uniquement. Les particuliers peuvent demander la suppression de leurs données des traces en vertu des dispositions du droit à l'effacement du RGPD.

Quel est le taux d'échantillonnage des examens humains dont nous avons besoin pour un contrôle efficace de la qualité ?

Pour la plupart des agents, un échantillonnage de 2 à 5 % des résultats de production permet un contrôle de la qualité statistiquement significatif. Pour les agents de grande valeur ou à haut risque, augmentez à 10-20 %. Le processus d'évaluation doit être structuré : les évaluateurs utilisent une rubrique standardisée plutôt que des impressions générales. L'interface de révision d'OpenClaw présente des résultats échantillonnés avec la rubrique et capture des commentaires structurés.

Pouvons-nous automatiser le processus d'évaluation humaine à l'aide d'un autre LLM ?

Partiellement. Les modèles « LLM en tant que juge » fonctionnent bien pour évaluer le format de sortie, l'exhaustivité et l'exactitude factuelle de base. Ils fonctionnent moins bien pour évaluer l’exactitude d’un domaine spécifique (l’exactitude d’une évaluation des risques contractuels nécessite une expertise juridique, et non un jugement général de l’IA). Utilisez l’évaluation LLM automatisée pour l’échelle et l’examen humain pour l’étalonnage et la validation.


Prochaines étapes

La mise en œuvre de tests et de surveillance de niveau production pour les agents d’IA nécessite une expérience des systèmes d’IA et des pratiques DevOps. La mise en œuvre d'OpenClaw d'ECOSIRE comprend une architecture de surveillance conçue pour les flux de travail de vos agents spécifiques, des tableaux de bord préconfigurés, des politiques d'alerte et des runbooks de réponse aux incidents.

Explorez les services de support et de maintenance OpenClaw pour en savoir plus sur les options de surveillance et d'optimisation en cours, ou planifiez une consultation pour discuter de l'architecture de surveillance de votre déploiement OpenClaw actuel ou prévu.

E

Rédigé par

ECOSIRE Research and Development Team

Création de produits numériques de niveau entreprise chez ECOSIRE. Partage d'analyses sur les intégrations Odoo, l'automatisation e-commerce et les solutions d'entreprise propulsées par l'IA.

Discutez sur WhatsApp