Testing and Monitoring AI Agents in Production

A complete guide to testing and monitoring AI agents in production environments. Covers evaluation frameworks, observability, drift detection, and incident response for OpenClaw deployments.

E
ECOSIRE Research and Development Team
|19. März 202611 Min. Lesezeit2.4k Wörter|

Teil unserer Performance & Scalability-Serie

Den vollständigen Leitfaden lesen

Testen und Überwachen von KI-Agenten in der Produktion

Die Bereitstellung eines KI-Agenten in der Produktion ist nicht das Ende der Implementierung – es ist der Beginn einer betrieblichen Disziplin, die es für herkömmliche Software nicht gibt. Herkömmliche Anwendungen scheitern deterministisch: Bei gleicher Eingabe erhalten Sie die gleiche (falsche) Ausgabe. KI-Agenten scheitern probabilistisch: Dieselbe Eingabe erzeugt in 97 % der Fälle eine korrekte Ausgabe und in 3 % der Fälle eine leicht falsche Ausgabe, und diese 3 % ändern sich, wenn Modelle aktualisiert werden, Eingabeverteilungen sich verschieben und Geschäftsregeln sich weiterentwickeln.

Dieser Leitfaden deckt den gesamten Betriebsrahmen für das Testen von KI-Agenten vor der Bereitstellung und deren kontinuierliche Überwachung in der Produktion ab, mit spezifischen Mustern für OpenClaw-Implementierungen.

Wichtige Erkenntnisse

  • Das Testen von KI-Agenten erfordert sowohl Funktionstests (korrekte Ausgabe) als auch Verhaltenstests (konsistente Argumentation).
  • Regressionstests sind von entscheidender Bedeutung, wenn Modelle aktualisiert werden. Gehen Sie davon aus, dass sich das Verhalten ändert, bis das Gegenteil bewiesen ist
  • Die Produktionsüberwachung muss Genauigkeitsmetriken verfolgen, nicht nur Verfügbarkeit und Latenz
  • Token-Nutzung und Kostenüberwachung verhindern unerwartete Abrechnungsspitzen – Die Anomalieerkennung in Agentenausgaben erkennt Genauigkeitsverschlechterungen, bevor sie sich auf die Geschäftsergebnisse auswirken
  • Die Probenahme durch menschliche Untersuchungen liefert fundierte Erkenntnisse für die Kalibrierung der automatisierten Überwachung
  • Playbooks zur Reaktion auf Vorfälle für KI-Agenten unterscheiden sich grundlegend von herkömmlichen Software-Vorfällen
  • Das A/B-Test-Framework ermöglicht die sichere Bewertung zeitnaher Änderungen und Modell-Upgrades

Warum das Testen von KI-Agenten anders ist

Das Testen von KI-Agenten erfordert eine grundlegend andere Denkweise als das Testen herkömmlicher Software. Beim herkömmlichen Softwaretest schreiben Sie Testfälle, stellen Eingaben bereit und überprüfen die Ausgaben anhand der erwarteten Werte. Wenn der Test durchweg bestanden wird, ist die Software korrekt.

KI-Agenten funktionieren nicht auf diese Weise. Ihre Ergebnisse sind probabilistisch – sie können richtig, leicht abweichend oder völlig falsch sein, und die Wahrscheinlichkeitsverteilung der Ergebnisse hängt von der Modellversion, dem bereitgestellten Kontext und der spezifischen Formulierung der Eingaben ab. Drei Herausforderungen machen herkömmliche Tests unzulänglich:

Nichtdeterminismus: Die zweimalige Ausführung derselben Eingabeaufforderung kann zu unterschiedlichen Ausgaben führen. Tests müssen die Ausgabequalität innerhalb eines Bereichs bewerten, nicht die exakte Gleichheit.

Empfindlichkeit der Modellversion: Wenn Ihr LLM-Anbieter eine neue Modellversion veröffentlicht, kann sich das Verhalten Ihres Agenten auf eine Weise ändern, die nicht sofort offensichtlich ist. Ein Modell, das bei Ihrer Aufgabe zu 94 % genau war, könnte sich auf 96 % verbessern oder auf 91 % abfallen – Sie benötigen Mechanismen, um dies zu erkennen.

Kontextabhängigkeit: Das Agentenverhalten hängt stark vom bereitgestellten Kontext ab (abgerufene Dokumente, Gesprächsverlauf, Systemanweisungen). Kleine Änderungen in der Kontextassemblierung können die Ausgabequalität erheblich beeinträchtigen.


Test-Framework vor der Produktion

Unit-Tests für Fähigkeiten

Jeder OpenClaw Skill sollte über eine Testsuite verfügen, die sein Verhalten anhand einer repräsentativen Stichprobe von Eingaben validiert. Bei diesen Tests handelt es sich nicht um Standard-Assert-Equals-Tests – sie verwenden ein Bewertungsframework, das die Ausgabequalität bewertet.

Teststruktur für eine Vertragsprüfung Fähigkeit:

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

Bewertungskriterien für jeden Test:

  • Rückruf (Hat der Agent gefunden, was da war?)
  • Präzision (hat der Agent nur relevante Elemente markiert?)
  • Genauigkeit der Risikobewertung (ist das Risikoniveau angemessen?)
  • Vollständigkeit der empfohlenen Maßnahmen
  • Einhaltung des Ausgabeformats (Pflichtfelder vorhanden, korrekte Struktur)

Golden Dataset-Tests

Pflegen Sie einen goldenen Datensatz mit 50–200 repräsentativen Eingaben mit vom Menschen überprüften erwarteten Ausgaben. Führen Sie den Agent vor jeder Produktionsbereitstellung mit diesem Datensatz aus und berechnen Sie Genauigkeitsmetriken. Bereitstellungen mit einer Genauigkeit unterhalb Ihres Schwellenwerts werden blockiert.

Goldener Datensatzaufbau:

  1. Sammeln Sie 200 echte Eingaben aus dem Produktionsverkehr (ggf. anonymisiert)
  2. Lassen Sie die jeweiligen Ergebnisse von Domänenexperten überprüfen und mit Anmerkungen versehen
  3. Stratifizieren Sie den Datensatz, um Randfälle, ungewöhnliche Eingaben und häufige Fehlermuster abzudecken
  4. Legen Sie grundlegende Genauigkeitsmetriken anhand des goldenen Datensatzes fest
  5. Behandeln Sie jede Regression unter den Ausgangswert als Bereitstellungsblocker

Automatisierte Bewertung für den Golden Dataset: Stellen Sie einen LLM als Evaluator ein oder schulen Sie ihn – ein separater LLM-Aufruf, der die Ausgabe des Agenten und die vom Menschen verifizierte erwartete Ausgabe nimmt und einen Ähnlichkeits-/Korrektheitswert erstellt. Dies ist das Muster „LLM als Richter“. In Kombination mit der menschlichen Überprüfung von Grenzfällen wird die Golden-Dataset-Auswertung auf häufige Durchläufe skaliert.

Integrationstests

Testen Sie das Agentenverhalten durchgängig im gesamten System, einschließlich Integrationen:

Integrationstestszenarien:

  • Agent liest aus ERP, verarbeitet Daten, schreibt zurück – überprüft die Datenintegrität – Der Agent ruft eine externe API auf und verarbeitet Erfolgs- und Fehlerantworten – Der Agent koordiniert sich mit einem anderen Agenten in einem Multi-Agenten-Workflow – Der Agent behandelt Zeitüberschreitungen, Ratenbeschränkungen und API-Nichtverfügbarkeit ordnungsgemäß
  • Der Agent erzeugt Ausgaben, die nachgelagerte Geschäftsprozesse korrekt auslösen

Simulierte Fehlerprüfung: – Timeout-Fehler in externe API-Aufrufe einfügen

  • Geben Sie fehlerhafte oder fehlende Daten an
  • Simulieren Sie die Nichtverfügbarkeit des Modellanbieters – Testen Sie die ordnungsgemäße Verschlechterung, wenn der Agent die Aufgabe nicht abschließen kann

Produktionsüberwachungsarchitektur

Vier Säulen der KI-Agentenüberwachung

Säule 1: Betriebsgesundheit (Standard-Softwareüberwachung)

  • Betriebszeit und Verfügbarkeit
  • Latenz pro Ausführung (P50, P95, P99)
  • Fehlerrate (Agentenabstürze, nicht behandelte Ausnahmen, API-Fehler)
  • Warteschlangentiefe und Durchsatz
  • Ressourcennutzung (CPU, Speicher, API-Parallelität)

Säule 2: Ausgabequalität (KI-spezifische Überwachung)

  • Genauigkeitsrate der abgetasteten Ausgaben (menschlich oder LLM-beurteilt)
  • Halluzinationserkennung (Ausgaben, die Informationen enthalten, die nicht im angegebenen Kontext stehen)
  • Formatkonformitätsrate (Ausgaben, die der erforderlichen Struktur entsprechen)
  • Verteilung der Konfidenzwerte (Agenten, die plötzlich eine Verschlechterung des Konfidenzsignals ausdrücken)
  • Aufgabenabschlussrate (Agent erzeugt erfolgreich eine vollständige Ausgabe, anstatt einen Fehler oder eine unvollständige Antwort zurückzugeben)

Säule 3: Geschäftsauswirkungen (Ergebnisüberwachung)

  • Erfolgsquote nachgelagerter Maßnahmen (Bestellungen erfolgreich aufgegeben, Genehmigungen korrekt weitergeleitet usw.)
  • Human-Override-Rate (wie oft Menschen die Entscheidungen des Agenten außer Kraft setzen)
  • Kundenzufriedenheit für kundenorientierte Agenten (CSAT, NPS)
  • Ausnahmerate (Eingaben werden zur menschlichen Überprüfung eskaliert)
  • Prozesszykluszeit (End-to-End-Task-Abschlusszeit)

Säule 4: Kosten (Token- und API-Kostenüberwachung)

  • Token-Verbrauch pro Ausführung (Input + Output)
  • Kosten pro erfolgreich abgeschlossener Aufgabe
  • Anomale Token-Nutzung (Ausführungen verbrauchen deutlich mehr Token als der Durchschnitt, Signal-Prompt-Injection oder Kontextverschmutzung)
  • Täglicher/wöchentlicher Kostentrend vs. Prognose

Observability-Implementierung

OpenClaw bietet eine integrierte Ausführungsverfolgung. Jeder Agentenlauf erzeugt eine strukturierte Ablaufverfolgung, einschließlich: – Ausführungs-ID und Zeitstempel

  • Eingabedaten (mit angewendeter PII-Redaktion)
  • Kontext abgerufen (RAG-Blöcke, vorherige Gesprächsrunden)
  • Vollständige Eingabeaufforderung an LLM gesendet
  • LLM-Antwort
  • Nachbearbeitungsschritte
  • Endgültige Ausgabe
  • Anzahl und Kosten der Token
  • Gesamtausführungszeit
  • Eventuelle Ausnahmen oder Eskalationen

Diese Trace-Daten ermöglichen ein Post-hoc-Debugging, wenn ein Agent eine falsche Ausgabe erzeugt. Sie können die genaue Ausführung nachvollziehen und jeden Schritt sehen.

Trace-Sampling-Strategie:

  • Stichprobe von 100 % der Transaktionen mit hohem Wert (monetäre Auswirkung von mehr als X $)
  • Probieren Sie 100 % der Ausnahmen und Eskalationen aus
  • Stichproben von 5–10 % der Routinetransaktionen zur Qualitätsüberwachung
  • Probieren Sie 100 % der Ausgaben für Kunden aus, die Probleme melden

Dashboard-Design

Effektive Dashboards zur KI-Agentenüberwachung kommunizieren andere Informationen als herkömmliche Anwendungs-Dashboards. Tastenfelder:

Echtzeit-Bedienfeld:

  • Aktive Hinrichtungen
  • Warteschlangentiefe
  • Ausführungsrate (letzte 5 Minuten im Vergleich zum Ausgangswert)
  • Fehlerrate (letzte 5 Minuten)
  • P95-Latenz

Qualitätstrend-Panel (24-Stunden-Ansicht):

  • Genauigkeitsratentrend (aus Stichprobenauswertung)
  • Trend zur menschlichen Übersteuerungsrate
  • Trend der Ausnahme-/Eskalationsrate
  • Verteilung der Konfidenzwerte

Kostenfeld:

  • Heutiger Token-Verbrauch im Vergleich zur Prognose
  • Kosten pro erfolgreicher Aufgabe (Trend)
  • Anomale Ausführungen (Ausreißer-Token-Verbrauch)
  • Wöchentliche Kostenprognose

Geschäftsergebnispanel:

  • Aufgabenabschlussrate nach Workflow-Typ
  • Downstream-Erfolgsquote
  • Kundenzufriedenheit (falls gemessen)
  • Verarbeitetes Volumen (im Vergleich zur Vorperiode)

Drifterkennung

Einer der heimtückischsten Fehlermodi von KI-Agenten ist die allmähliche Drift – die Leistung des Agenten nimmt mit der Zeit langsam ab, wenn die Verteilung der Eingaben von der Trainingsverteilung abweicht oder wenn das Modell vom Anbieter aktualisiert wird.

Überwachung der Eingabeverteilung

Verfolgen Sie Statistiken über die Verteilung Ihrer Eingabedaten im Zeitverlauf. Warnung vor bedeutenden Veränderungen:

  • Vokabulardrift (es tauchen neue Begriffe auf, die nicht in den Trainingsdaten enthalten waren)
  • Änderungen der Eingabelängenverteilung (ungewöhnlich lange oder kurze Eingaben)
  • Sprach- oder Formatänderungen bei Eingaben – Neue Dokumenttypen erscheinen in Dokumentverarbeitungspipelines

Erkennung von Modellversionsänderungen

LLM-Anbieter aktualisieren ihre Modelle kontinuierlich. Einige Updates sind still (gleiche Modellkennung, unterschiedliche Gewichtungen). Überwachen Sie Folgendes:

  • Änderungen der Antwortlängenverteilung
  • Änderungen der Formatkonformitätsrate
  • Änderungen des Latenzprofils
  • Änderungen bei der Verteilung der Konfidenzwerte

Wenn sich eine dieser Metriken erheblich ändert, führen Sie sofort die Golden-Dataset-Bewertung durch, um die Auswirkung auf die Genauigkeit zu quantifizieren.

Konzeptdrift

Geschäftsregeln und Domänenwissen ändern sich im Laufe der Zeit. Ein Agent, der für die Anwendung der Preisregeln für 2024 geschult ist, wird falsche Ergebnisse erzeugen, wenn die Preisregeln für 2025 in Kraft treten. Überwachen:

  • Menschliche Überschreibungsrate nach Ursachencode (zunehmende Überschreibungen aus einem bestimmten Grund weisen auf eine Konzeptabweichung in diesem Bereich hin)
  • Änderungen der Fehlertypverteilung
  • Gründe für die Eskalation von Ausnahmen

Reaktion auf Vorfälle für KI-Agenten

Vorfälle mit KI-Agenten unterscheiden sich von herkömmlichen Softwarevorfällen. Der Ausfall ist oft kein Absturz, sondern eine Verschlechterung der Ausgabequalität, die sich subtil auf die Geschäftsergebnisse auswirkt.

Schweregrade des Vorfalls:

EbeneDefinitionReaktionszeitAktion
P1Agent, der systematisch falsche Ergebnisse erzeugt, die sich auf Finanz- oder Sicherheitsentscheidungen auswirkenSofortAgent deaktivieren, manuelles Fallback
P2Die Genauigkeit ist um mehr als 10 % unter den Ausgangswert gesunken30 MinutenAlarmieren, Grundursache bewerten, Deaktivierung in Betracht ziehen
P3Ausnahmequote erhöht, Qualität grenzwertig2 StundenUntersuchen, genau überwachen
P4Die Leistung ist beeinträchtigt, liegt jedoch innerhalb des akzeptablen SchwellenwertsNächster WerktagProtokoll für nächsten Iterationszyklus

P1-Playbook zur Reaktion auf Vorfälle:

  1. Erkennen: Automatische Alarmauslösung vom Überwachungssystem
  2. Bewerten (5 Minuten): Überprüfen Sie die letzten Ausführungen und identifizieren Sie Fehlermuster
  3. Enthalten (10 Minuten): Wechseln Sie zum manuellen Fallback-Prozess und deaktivieren Sie ggf. den Agenten
  4. Diagnose (30–60 Minuten): Identifizieren Sie die Grundursache (Modelländerung, Verschiebung der Eingabeverteilung, prompte Regression, Integrationsfehler)
  5. Abhilfe: Korrektur anwenden (prompte Aktualisierung, Modell-Rollback, Änderung der Eingabevalidierung, Integrationskorrektur)
  6. Validieren: Führen Sie eine Golden-Dataset-Bewertung für einen festen Agenten durch
  7. Wiederherstellen: Agent mit Überwachung im erhöhten Alarmzustand erneut aktivieren
  8. Post-Mortem: Dokumentieren Sie innerhalb von 48 Stunden – was fehlgeschlagen ist, warum und wie man ein erneutes Auftreten verhindert

A/B-Tests für Agentenverbesserungen

Die Verbesserung von KI-Agenten erfordert eine sichere Bewertung der Änderungen vor der vollständigen Bereitstellung. A/B-Tests ermöglichen Folgendes:

Tests im Schattenmodus: Führen Sie die neue Agentenversion im Produktionsverkehr aus, ohne ihre Ausgaben zu verwenden. Vergleichen Sie die Schattenausgaben mit den aktuellen Agentenausgaben, um den Unterschied zu quantifizieren, bevor er sich auf Kunden auswirkt.

Canary-Bereitstellung: Leiten Sie 5–10 % des Produktionsdatenverkehrs an die neue Agentenversion weiter. Überwachen Sie Qualitätsmetriken der Kanarienvogelpopulation im Vergleich zur Kontrollpopulation. Roll-forward, wenn sich die Kennzahlen verbessern oder halten, und Roll-back, wenn sie sich verschlechtern.

Champion/Herausforderer: Der aktuelle Produktionsagent ist der „Champion“. Neue Agentenversionen sind „Herausforderer“. Herausforderer müssen eine statistisch signifikante Verbesserung gegenüber dem goldenen Datensatz nachweisen, bevor sie zum Champion aufsteigen.

Rollback-Auslöser: Definieren Sie automatisierte Rollback-Auslöser – wenn die Genauigkeit des Kanarienvogels unter den Schwellenwert fällt oder die Rate menschlicher Überschreibungen über den Schwellenwert steigt, wird automatisch auf den Champion zurückgegriffen.


Häufig gestellte Fragen

Wie oft sollten wir Golden-Dataset-Auswertungen in der Produktion durchführen?

Ausführung bei jeder Bereitstellung (einschließlich Modellversionsänderungen), wöchentlich als Zustandsprüfung und sofort, wenn die Überwachung Anomalien erkennt. Bei hochriskanten Agenten (Finanzentscheidungen, medizinische Dokumentation) täglich ausführen. Automatisierte CI/CD-Pipelines können bei jeder Codeänderung automatisch eine Golden-Dataset-Auswertung auslösen.

Wie erkennen wir, wenn der LLM-Anbieter das Modell stillschweigend aktualisiert?

Überwachen Sie die Antworteigenschaften, die stabil sein sollten: durchschnittliche Antwortlänge, Formatkonformitätsrate, Verteilung der Konfidenzbewertung und Latenzprofil. Jede signifikante Änderung dieser Metriken löst eine Golden-Dataset-Bewertung aus, um die Auswirkungen auf die Genauigkeit zu quantifizieren. Einige Anbieter bieten eine Modellversionierung an, die an eine bestimmte Version gebunden ist – verwenden Sie diese, sofern verfügbar.

Was ist ein akzeptabler Genauigkeitsschwellenwert für Produktions-KI-Agenten?

Dies hängt ganz vom Anwendungsfall und den Fehlerkosten ab. Für Agenten, die autonome Finanzentscheidungen treffen, ist in der Regel eine Genauigkeit von über 98 % erforderlich. Für Agenten, die Entwürfe erstellen, die von Menschen überprüft werden, sind 85–90 % oft akzeptabel, da der Mensch Fehler erkennt. Für Agenten, die interne Analysen erstellen, bei denen das Risiko von Fehlern gering ist, können 80 % ausreichend sein. Definieren Sie Ihren Schwellenwert basierend auf einer Fehlerkostenanalyse und nicht auf willkürlichen Benchmarks.

Wie gehen wir mit der DSGVO und den Datenschutzanforderungen für die Speicherung von Agent-Ausführungsspuren um?

Das Trace-System von OpenClaw unterstützt die PII-Schwärzung vor der Speicherung – konfigurieren Sie in der Trace-Konfiguration, welche Felder geschwärzt werden sollen. Traces werden mit konfigurierbaren Aufbewahrungsfristen gespeichert, um den Anforderungen der Datenminimierung gerecht zu werden. Für EU-basierte Bereitstellungen kann der Trace-Speicher für reine EU-Regionen konfiguriert werden. Einzelpersonen können gemäß den DSGVO-Bestimmungen zum Recht auf Löschung die Löschung ihrer Daten aus den Spuren beantragen.

Wie hoch ist die Stichprobenrate menschlicher Bewertungen, die wir für eine effektive Qualitätsüberwachung benötigen?

Für die meisten Agenten bietet eine Stichprobe von 2–5 % der Produktionsergebnisse eine statistisch signifikante Qualitätsüberwachung. Für hochwertige oder risikoreiche Wirkstoffe erhöhen Sie den Wert auf 10–20 %. Der Überprüfungsprozess sollte strukturiert sein – Prüfer verwenden eine standardisierte Rubrik und keine allgemeinen Eindrücke. Die Überprüfungsoberfläche von OpenClaw präsentiert ausgewählte Ergebnisse mit der Rubrik und erfasst strukturiertes Feedback.

Können wir den menschlichen Überprüfungsprozess mithilfe eines anderen LLM automatisieren?

Teilweise. „LLM als Richter“-Muster eignen sich gut zur Bewertung des Ausgabeformats, der Vollständigkeit und der grundlegenden sachlichen Genauigkeit. Sie eignen sich weniger gut für die Bewertung der domänenspezifischen Korrektheit (ob eine Vertragsrisikobewertung korrekt ist, erfordert juristisches Fachwissen, kein allgemeines KI-Urteil). Nutzen Sie die automatisierte LLM-Bewertung für die Skalierung und die menschliche Überprüfung für die Kalibrierung und Validierung.


Nächste Schritte

Die Implementierung von Tests und Überwachung in Produktionsqualität für KI-Agenten erfordert Erfahrung sowohl mit KI-Systemen als auch mit DevOps-Praktiken. Die OpenClaw-Implementierung von ECOSIRE umfasst eine Überwachungsarchitektur, die für Ihre spezifischen Agenten-Workflows entwickelt wurde, vorkonfigurierte Dashboards, Warnrichtlinien und Runbooks zur Reaktion auf Vorfälle.

[Entdecken Sie die Support- und Wartungsdienste von OpenClaw] (/services/openclaw/support-maintenance), um mehr über laufende Überwachungs- und Optimierungsoptionen zu erfahren, oder vereinbaren Sie einen Beratungstermin, um die Überwachungsarchitektur für Ihre aktuelle oder geplante OpenClaw-Bereitstellung zu besprechen.

E

Geschrieben von

ECOSIRE Research and Development Team

Entwicklung von Enterprise-Digitalprodukten bei ECOSIRE. Einblicke in Odoo-Integrationen, E-Commerce-Automatisierung und KI-gestützte Geschäftslösungen.

Chatten Sie auf WhatsApp