Testen und Überwachen von KI-Agenten in der Produktion

Die Bereitstellung eines KI-Agenten in der Produktion ist nicht das Ende der Implementierung – es ist der Beginn einer betrieblichen Disziplin, die es für herkömmliche Software nicht gibt. Herkömmliche Anwendungen scheitern deterministisch: Bei gleicher Eingabe erhalten Sie die gleiche (falsche) Ausgabe. KI-Agenten scheitern probabilistisch: Dieselbe Eingabe erzeugt in 97 % der Fälle eine korrekte Ausgabe und in 3 % der Fälle eine leicht falsche Ausgabe, und diese 3 % ändern sich, wenn Modelle aktualisiert werden, Eingabeverteilungen sich verschieben und Geschäftsregeln sich weiterentwickeln.

Dieser Leitfaden deckt den gesamten Betriebsrahmen für das Testen von KI-Agenten vor der Bereitstellung und deren kontinuierliche Überwachung in der Produktion ab, mit spezifischen Mustern für OpenClaw-Implementierungen.

Wichtige Erkenntnisse

Das Testen von KI-Agenten erfordert sowohl Funktionstests (korrekte Ausgabe) als auch Verhaltenstests (konsistente Argumentation).

Regressionstests sind von entscheidender Bedeutung, wenn Modelle aktualisiert werden. Gehen Sie davon aus, dass sich das Verhalten ändert, bis das Gegenteil bewiesen ist

Die Produktionsüberwachung muss Genauigkeitsmetriken verfolgen, nicht nur Verfügbarkeit und Latenz

Token-Nutzung und Kostenüberwachung verhindern unerwartete Abrechnungsspitzen – Die Anomalieerkennung in Agentenausgaben erkennt Genauigkeitsverschlechterungen, bevor sie sich auf die Geschäftsergebnisse auswirken

Die Probenahme durch menschliche Untersuchungen liefert fundierte Erkenntnisse für die Kalibrierung der automatisierten Überwachung

Playbooks zur Reaktion auf Vorfälle für KI-Agenten unterscheiden sich grundlegend von herkömmlichen Software-Vorfällen

Das A/B-Test-Framework ermöglicht die sichere Bewertung zeitnaher Änderungen und Modell-Upgrades

Warum das Testen von KI-Agenten anders ist

Das Testen von KI-Agenten erfordert eine grundlegend andere Denkweise als das Testen herkömmlicher Software. Beim herkömmlichen Softwaretest schreiben Sie Testfälle, stellen Eingaben bereit und überprüfen die Ausgaben anhand der erwarteten Werte. Wenn der Test durchweg bestanden wird, ist die Software korrekt.

KI-Agenten funktionieren nicht auf diese Weise. Ihre Ergebnisse sind probabilistisch – sie können richtig, leicht abweichend oder völlig falsch sein, und die Wahrscheinlichkeitsverteilung der Ergebnisse hängt von der Modellversion, dem bereitgestellten Kontext und der spezifischen Formulierung der Eingaben ab. Drei Herausforderungen machen herkömmliche Tests unzulänglich:

Nichtdeterminismus: Die zweimalige Ausführung derselben Eingabeaufforderung kann zu unterschiedlichen Ausgaben führen. Tests müssen die Ausgabequalität innerhalb eines Bereichs bewerten, nicht die exakte Gleichheit.

Empfindlichkeit der Modellversion: Wenn Ihr LLM-Anbieter eine neue Modellversion veröffentlicht, kann sich das Verhalten Ihres Agenten auf eine Weise ändern, die nicht sofort offensichtlich ist. Ein Modell, das bei Ihrer Aufgabe zu 94 % genau war, könnte sich auf 96 % verbessern oder auf 91 % abfallen – Sie benötigen Mechanismen, um dies zu erkennen.

Kontextabhängigkeit: Das Agentenverhalten hängt stark vom bereitgestellten Kontext ab (abgerufene Dokumente, Gesprächsverlauf, Systemanweisungen). Kleine Änderungen in der Kontextassemblierung können die Ausgabequalität erheblich beeinträchtigen.

Test-Framework vor der Produktion

Unit-Tests für Fähigkeiten

Jeder OpenClaw Skill sollte über eine Testsuite verfügen, die sein Verhalten anhand einer repräsentativen Stichprobe von Eingaben validiert. Bei diesen Tests handelt es sich nicht um Standard-Assert-Equals-Tests – sie verwenden ein Bewertungsframework, das die Ausgabequalität bewertet.

Teststruktur für eine Vertragsprüfung Fähigkeit:

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

Bewertungskriterien für jeden Test:

Rückruf (Hat der Agent gefunden, was da war?)
Präzision (hat der Agent nur relevante Elemente markiert?)
Genauigkeit der Risikobewertung (ist das Risikoniveau angemessen?)
Vollständigkeit der empfohlenen Maßnahmen
Einhaltung des Ausgabeformats (Pflichtfelder vorhanden, korrekte Struktur)

Golden Dataset-Tests

Pflegen Sie einen goldenen Datensatz mit 50–200 repräsentativen Eingaben mit vom Menschen überprüften erwarteten Ausgaben. Führen Sie den Agent vor jeder Produktionsbereitstellung mit diesem Datensatz aus und berechnen Sie Genauigkeitsmetriken. Bereitstellungen mit einer Genauigkeit unterhalb Ihres Schwellenwerts werden blockiert.

Goldener Datensatzaufbau:

Sammeln Sie 200 echte Eingaben aus dem Produktionsverkehr (ggf. anonymisiert)
Lassen Sie die jeweiligen Ergebnisse von Domänenexperten überprüfen und mit Anmerkungen versehen
Stratifizieren Sie den Datensatz, um Randfälle, ungewöhnliche Eingaben und häufige Fehlermuster abzudecken
Legen Sie grundlegende Genauigkeitsmetriken anhand des goldenen Datensatzes fest
Behandeln Sie jede Regression unter den Ausgangswert als Bereitstellungsblocker

Automatisierte Bewertung für den Golden Dataset: Stellen Sie einen LLM als Evaluator ein oder schulen Sie ihn – ein separater LLM-Aufruf, der die Ausgabe des Agenten und die vom Menschen verifizierte erwartete Ausgabe nimmt und einen Ähnlichkeits-/Korrektheitswert erstellt. Dies ist das Muster „LLM als Richter“. In Kombination mit der menschlichen Überprüfung von Grenzfällen wird die Golden-Dataset-Auswertung auf häufige Durchläufe skaliert.

Integrationstests

Testen Sie das Agentenverhalten durchgängig im gesamten System, einschließlich Integrationen:

Integrationstestszenarien:

Agent liest aus ERP, verarbeitet Daten, schreibt zurück – überprüft die Datenintegrität – Der Agent ruft eine externe API auf und verarbeitet Erfolgs- und Fehlerantworten – Der Agent koordiniert sich mit einem anderen Agenten in einem Multi-Agenten-Workflow – Der Agent behandelt Zeitüberschreitungen, Ratenbeschränkungen und API-Nichtverfügbarkeit ordnungsgemäß
Der Agent erzeugt Ausgaben, die nachgelagerte Geschäftsprozesse korrekt auslösen

Simulierte Fehlerprüfung: – Timeout-Fehler in externe API-Aufrufe einfügen

Geben Sie fehlerhafte oder fehlende Daten an
Simulieren Sie die Nichtverfügbarkeit des Modellanbieters – Testen Sie die ordnungsgemäße Verschlechterung, wenn der Agent die Aufgabe nicht abschließen kann

Produktionsüberwachungsarchitektur

Vier Säulen der KI-Agentenüberwachung

Säule 1: Betriebsgesundheit (Standard-Softwareüberwachung)

Betriebszeit und Verfügbarkeit
Latenz pro Ausführung (P50, P95, P99)
Fehlerrate (Agentenabstürze, nicht behandelte Ausnahmen, API-Fehler)
Warteschlangentiefe und Durchsatz
Ressourcennutzung (CPU, Speicher, API-Parallelität)

Säule 2: Ausgabequalität (KI-spezifische Überwachung)

Genauigkeitsrate der abgetasteten Ausgaben (menschlich oder LLM-beurteilt)
Halluzinationserkennung (Ausgaben, die Informationen enthalten, die nicht im angegebenen Kontext stehen)
Formatkonformitätsrate (Ausgaben, die der erforderlichen Struktur entsprechen)
Verteilung der Konfidenzwerte (Agenten, die plötzlich eine Verschlechterung des Konfidenzsignals ausdrücken)
Aufgabenabschlussrate (Agent erzeugt erfolgreich eine vollständige Ausgabe, anstatt einen Fehler oder eine unvollständige Antwort zurückzugeben)

Säule 3: Geschäftsauswirkungen (Ergebnisüberwachung)

Erfolgsquote nachgelagerter Maßnahmen (Bestellungen erfolgreich aufgegeben, Genehmigungen korrekt weitergeleitet usw.)
Human-Override-Rate (wie oft Menschen die Entscheidungen des Agenten außer Kraft setzen)
Kundenzufriedenheit für kundenorientierte Agenten (CSAT, NPS)
Ausnahmerate (Eingaben werden zur menschlichen Überprüfung eskaliert)
Prozesszykluszeit (End-to-End-Task-Abschlusszeit)

Säule 4: Kosten (Token- und API-Kostenüberwachung)

Token-Verbrauch pro Ausführung (Input + Output)
Kosten pro erfolgreich abgeschlossener Aufgabe
Anomale Token-Nutzung (Ausführungen verbrauchen deutlich mehr Token als der Durchschnitt, Signal-Prompt-Injection oder Kontextverschmutzung)
Täglicher/wöchentlicher Kostentrend vs. Prognose

Observability-Implementierung

OpenClaw bietet eine integrierte Ausführungsverfolgung. Jeder Agentenlauf erzeugt eine strukturierte Ablaufverfolgung, einschließlich: – Ausführungs-ID und Zeitstempel

Eingabedaten (mit angewendeter PII-Redaktion)
Kontext abgerufen (RAG-Blöcke, vorherige Gesprächsrunden)
Vollständige Eingabeaufforderung an LLM gesendet
LLM-Antwort
Nachbearbeitungsschritte
Endgültige Ausgabe
Anzahl und Kosten der Token
Gesamtausführungszeit
Eventuelle Ausnahmen oder Eskalationen

Diese Trace-Daten ermöglichen ein Post-hoc-Debugging, wenn ein Agent eine falsche Ausgabe erzeugt. Sie können die genaue Ausführung nachvollziehen und jeden Schritt sehen.

Trace-Sampling-Strategie:

Stichprobe von 100 % der Transaktionen mit hohem Wert (monetäre Auswirkung von mehr als X $)
Probieren Sie 100 % der Ausnahmen und Eskalationen aus
Stichproben von 5–10 % der Routinetransaktionen zur Qualitätsüberwachung
Probieren Sie 100 % der Ausgaben für Kunden aus, die Probleme melden

Dashboard-Design

Effektive Dashboards zur KI-Agentenüberwachung kommunizieren andere Informationen als herkömmliche Anwendungs-Dashboards. Tastenfelder:

Echtzeit-Bedienfeld:

Aktive Hinrichtungen
Warteschlangentiefe
Ausführungsrate (letzte 5 Minuten im Vergleich zum Ausgangswert)
Fehlerrate (letzte 5 Minuten)
P95-Latenz

Qualitätstrend-Panel (24-Stunden-Ansicht):

Genauigkeitsratentrend (aus Stichprobenauswertung)
Trend zur menschlichen Übersteuerungsrate
Trend der Ausnahme-/Eskalationsrate
Verteilung der Konfidenzwerte

Kostenfeld:

Heutiger Token-Verbrauch im Vergleich zur Prognose
Kosten pro erfolgreicher Aufgabe (Trend)
Anomale Ausführungen (Ausreißer-Token-Verbrauch)
Wöchentliche Kostenprognose

Geschäftsergebnispanel:

Aufgabenabschlussrate nach Workflow-Typ
Downstream-Erfolgsquote
Kundenzufriedenheit (falls gemessen)
Verarbeitetes Volumen (im Vergleich zur Vorperiode)

Drifterkennung

Einer der heimtückischsten Fehlermodi von KI-Agenten ist die allmähliche Drift – die Leistung des Agenten nimmt mit der Zeit langsam ab, wenn die Verteilung der Eingaben von der Trainingsverteilung abweicht oder wenn das Modell vom Anbieter aktualisiert wird.

Überwachung der Eingabeverteilung

Verfolgen Sie Statistiken über die Verteilung Ihrer Eingabedaten im Zeitverlauf. Warnung vor bedeutenden Veränderungen:

Vokabulardrift (es tauchen neue Begriffe auf, die nicht in den Trainingsdaten enthalten waren)
Änderungen der Eingabelängenverteilung (ungewöhnlich lange oder kurze Eingaben)
Sprach- oder Formatänderungen bei Eingaben – Neue Dokumenttypen erscheinen in Dokumentverarbeitungspipelines

Erkennung von Modellversionsänderungen

LLM-Anbieter aktualisieren ihre Modelle kontinuierlich. Einige Updates sind still (gleiche Modellkennung, unterschiedliche Gewichtungen). Überwachen Sie Folgendes:

Änderungen der Antwortlängenverteilung
Änderungen der Formatkonformitätsrate
Änderungen des Latenzprofils
Änderungen bei der Verteilung der Konfidenzwerte

Wenn sich eine dieser Metriken erheblich ändert, führen Sie sofort die Golden-Dataset-Bewertung durch, um die Auswirkung auf die Genauigkeit zu quantifizieren.

Konzeptdrift

Geschäftsregeln und Domänenwissen ändern sich im Laufe der Zeit. Ein Agent, der für die Anwendung der Preisregeln für 2024 geschult ist, wird falsche Ergebnisse erzeugen, wenn die Preisregeln für 2025 in Kraft treten. Überwachen:

Menschliche Überschreibungsrate nach Ursachencode (zunehmende Überschreibungen aus einem bestimmten Grund weisen auf eine Konzeptabweichung in diesem Bereich hin)
Änderungen der Fehlertypverteilung
Gründe für die Eskalation von Ausnahmen

Reaktion auf Vorfälle für KI-Agenten

Vorfälle mit KI-Agenten unterscheiden sich von herkömmlichen Softwarevorfällen. Der Ausfall ist oft kein Absturz, sondern eine Verschlechterung der Ausgabequalität, die sich subtil auf die Geschäftsergebnisse auswirkt.

Schweregrade des Vorfalls:

Ebene	Definition	Reaktionszeit	Aktion
P1	Agent, der systematisch falsche Ergebnisse erzeugt, die sich auf Finanz- oder Sicherheitsentscheidungen auswirken	Sofort	Agent deaktivieren, manuelles Fallback
P2	Die Genauigkeit ist um mehr als 10 % unter den Ausgangswert gesunken	30 Minuten	Alarmieren, Grundursache bewerten, Deaktivierung in Betracht ziehen
P3	Ausnahmequote erhöht, Qualität grenzwertig	2 Stunden	Untersuchen, genau überwachen
P4	Die Leistung ist beeinträchtigt, liegt jedoch innerhalb des akzeptablen Schwellenwerts	Nächster Werktag	Protokoll für nächsten Iterationszyklus

P1-Playbook zur Reaktion auf Vorfälle:

Erkennen: Automatische Alarmauslösung vom Überwachungssystem
Bewerten (5 Minuten): Überprüfen Sie die letzten Ausführungen und identifizieren Sie Fehlermuster
Enthalten (10 Minuten): Wechseln Sie zum manuellen Fallback-Prozess und deaktivieren Sie ggf. den Agenten
Diagnose (30–60 Minuten): Identifizieren Sie die Grundursache (Modelländerung, Verschiebung der Eingabeverteilung, prompte Regression, Integrationsfehler)
Abhilfe: Korrektur anwenden (prompte Aktualisierung, Modell-Rollback, Änderung der Eingabevalidierung, Integrationskorrektur)
Validieren: Führen Sie eine Golden-Dataset-Bewertung für einen festen Agenten durch
Wiederherstellen: Agent mit Überwachung im erhöhten Alarmzustand erneut aktivieren
Post-Mortem: Dokumentieren Sie innerhalb von 48 Stunden – was fehlgeschlagen ist, warum und wie man ein erneutes Auftreten verhindert

A/B-Tests für Agentenverbesserungen

Die Verbesserung von KI-Agenten erfordert eine sichere Bewertung der Änderungen vor der vollständigen Bereitstellung. A/B-Tests ermöglichen Folgendes:

Tests im Schattenmodus: Führen Sie die neue Agentenversion im Produktionsverkehr aus, ohne ihre Ausgaben zu verwenden. Vergleichen Sie die Schattenausgaben mit den aktuellen Agentenausgaben, um den Unterschied zu quantifizieren, bevor er sich auf Kunden auswirkt.

Canary-Bereitstellung: Leiten Sie 5–10 % des Produktionsdatenverkehrs an die neue Agentenversion weiter. Überwachen Sie Qualitätsmetriken der Kanarienvogelpopulation im Vergleich zur Kontrollpopulation. Roll-forward, wenn sich die Kennzahlen verbessern oder halten, und Roll-back, wenn sie sich verschlechtern.

Champion/Herausforderer: Der aktuelle Produktionsagent ist der „Champion“. Neue Agentenversionen sind „Herausforderer“. Herausforderer müssen eine statistisch signifikante Verbesserung gegenüber dem goldenen Datensatz nachweisen, bevor sie zum Champion aufsteigen.

Rollback-Auslöser: Definieren Sie automatisierte Rollback-Auslöser – wenn die Genauigkeit des Kanarienvogels unter den Schwellenwert fällt oder die Rate menschlicher Überschreibungen über den Schwellenwert steigt, wird automatisch auf den Champion zurückgegriffen.

Häufig gestellte Fragen

Wie oft sollten wir Golden-Dataset-Auswertungen in der Produktion durchführen?

Ausführung bei jeder Bereitstellung (einschließlich Modellversionsänderungen), wöchentlich als Zustandsprüfung und sofort, wenn die Überwachung Anomalien erkennt. Bei hochriskanten Agenten (Finanzentscheidungen, medizinische Dokumentation) täglich ausführen. Automatisierte CI/CD-Pipelines können bei jeder Codeänderung automatisch eine Golden-Dataset-Auswertung auslösen.

Wie erkennen wir, wenn der LLM-Anbieter das Modell stillschweigend aktualisiert?

Überwachen Sie die Antworteigenschaften, die stabil sein sollten: durchschnittliche Antwortlänge, Formatkonformitätsrate, Verteilung der Konfidenzbewertung und Latenzprofil. Jede signifikante Änderung dieser Metriken löst eine Golden-Dataset-Bewertung aus, um die Auswirkungen auf die Genauigkeit zu quantifizieren. Einige Anbieter bieten eine Modellversionierung an, die an eine bestimmte Version gebunden ist – verwenden Sie diese, sofern verfügbar.

Was ist ein akzeptabler Genauigkeitsschwellenwert für Produktions-KI-Agenten?

Dies hängt ganz vom Anwendungsfall und den Fehlerkosten ab. Für Agenten, die autonome Finanzentscheidungen treffen, ist in der Regel eine Genauigkeit von über 98 % erforderlich. Für Agenten, die Entwürfe erstellen, die von Menschen überprüft werden, sind 85–90 % oft akzeptabel, da der Mensch Fehler erkennt. Für Agenten, die interne Analysen erstellen, bei denen das Risiko von Fehlern gering ist, können 80 % ausreichend sein. Definieren Sie Ihren Schwellenwert basierend auf einer Fehlerkostenanalyse und nicht auf willkürlichen Benchmarks.

Wie gehen wir mit der DSGVO und den Datenschutzanforderungen für die Speicherung von Agent-Ausführungsspuren um?

Das Trace-System von OpenClaw unterstützt die PII-Schwärzung vor der Speicherung – konfigurieren Sie in der Trace-Konfiguration, welche Felder geschwärzt werden sollen. Traces werden mit konfigurierbaren Aufbewahrungsfristen gespeichert, um den Anforderungen der Datenminimierung gerecht zu werden. Für EU-basierte Bereitstellungen kann der Trace-Speicher für reine EU-Regionen konfiguriert werden. Einzelpersonen können gemäß den DSGVO-Bestimmungen zum Recht auf Löschung die Löschung ihrer Daten aus den Spuren beantragen.

Wie hoch ist die Stichprobenrate menschlicher Bewertungen, die wir für eine effektive Qualitätsüberwachung benötigen?

Für die meisten Agenten bietet eine Stichprobe von 2–5 % der Produktionsergebnisse eine statistisch signifikante Qualitätsüberwachung. Für hochwertige oder risikoreiche Wirkstoffe erhöhen Sie den Wert auf 10–20 %. Der Überprüfungsprozess sollte strukturiert sein – Prüfer verwenden eine standardisierte Rubrik und keine allgemeinen Eindrücke. Die Überprüfungsoberfläche von OpenClaw präsentiert ausgewählte Ergebnisse mit der Rubrik und erfasst strukturiertes Feedback.

Können wir den menschlichen Überprüfungsprozess mithilfe eines anderen LLM automatisieren?

Teilweise. „LLM als Richter“-Muster eignen sich gut zur Bewertung des Ausgabeformats, der Vollständigkeit und der grundlegenden sachlichen Genauigkeit. Sie eignen sich weniger gut für die Bewertung der domänenspezifischen Korrektheit (ob eine Vertragsrisikobewertung korrekt ist, erfordert juristisches Fachwissen, kein allgemeines KI-Urteil). Nutzen Sie die automatisierte LLM-Bewertung für die Skalierung und die menschliche Überprüfung für die Kalibrierung und Validierung.

Nächste Schritte

Die Implementierung von Tests und Überwachung in Produktionsqualität für KI-Agenten erfordert Erfahrung sowohl mit KI-Systemen als auch mit DevOps-Praktiken. Die OpenClaw-Implementierung von ECOSIRE umfasst eine Überwachungsarchitektur, die für Ihre spezifischen Agenten-Workflows entwickelt wurde, vorkonfigurierte Dashboards, Warnrichtlinien und Runbooks zur Reaktion auf Vorfälle.

[Entdecken Sie die Support- und Wartungsdienste von OpenClaw] (/services/openclaw/support-maintenance), um mehr über laufende Überwachungs- und Optimierungsoptionen zu erfahren, oder vereinbaren Sie einen Beratungstermin, um die Überwachungsarchitektur für Ihre aktuelle oder geplante OpenClaw-Bereitstellung zu besprechen.

Testen und Überwachen von KI-Agenten in der Produktion

Wichtige Erkenntnisse

Das Testen von KI-Agenten erfordert sowohl Funktionstests (korrekte Ausgabe) als auch Verhaltenstests (konsistente Argumentation).

Regressionstests sind von entscheidender Bedeutung, wenn Modelle aktualisiert werden. Gehen Sie davon aus, dass sich das Verhalten ändert, bis das Gegenteil bewiesen ist

Die Produktionsüberwachung muss Genauigkeitsmetriken verfolgen, nicht nur Verfügbarkeit und Latenz

Token-Nutzung und Kostenüberwachung verhindern unerwartete Abrechnungsspitzen – Die Anomalieerkennung in Agentenausgaben erkennt Genauigkeitsverschlechterungen, bevor sie sich auf die Geschäftsergebnisse auswirken

Die Probenahme durch menschliche Untersuchungen liefert fundierte Erkenntnisse für die Kalibrierung der automatisierten Überwachung

Playbooks zur Reaktion auf Vorfälle für KI-Agenten unterscheiden sich grundlegend von herkömmlichen Software-Vorfällen

Das A/B-Test-Framework ermöglicht die sichere Bewertung zeitnaher Änderungen und Modell-Upgrades

Warum das Testen von KI-Agenten anders ist

Test-Framework vor der Produktion

Unit-Tests für Fähigkeiten

Teststruktur für eine Vertragsprüfung Fähigkeit:

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

Bewertungskriterien für jeden Test:

Rückruf (Hat der Agent gefunden, was da war?)
Präzision (hat der Agent nur relevante Elemente markiert?)
Genauigkeit der Risikobewertung (ist das Risikoniveau angemessen?)
Vollständigkeit der empfohlenen Maßnahmen
Einhaltung des Ausgabeformats (Pflichtfelder vorhanden, korrekte Struktur)

Golden Dataset-Tests

Goldener Datensatzaufbau:

Sammeln Sie 200 echte Eingaben aus dem Produktionsverkehr (ggf. anonymisiert)
Lassen Sie die jeweiligen Ergebnisse von Domänenexperten überprüfen und mit Anmerkungen versehen
Stratifizieren Sie den Datensatz, um Randfälle, ungewöhnliche Eingaben und häufige Fehlermuster abzudecken
Legen Sie grundlegende Genauigkeitsmetriken anhand des goldenen Datensatzes fest
Behandeln Sie jede Regression unter den Ausgangswert als Bereitstellungsblocker

Integrationstests

Testen Sie das Agentenverhalten durchgängig im gesamten System, einschließlich Integrationen:

Integrationstestszenarien:

Agent liest aus ERP, verarbeitet Daten, schreibt zurück – überprüft die Datenintegrität – Der Agent ruft eine externe API auf und verarbeitet Erfolgs- und Fehlerantworten – Der Agent koordiniert sich mit einem anderen Agenten in einem Multi-Agenten-Workflow – Der Agent behandelt Zeitüberschreitungen, Ratenbeschränkungen und API-Nichtverfügbarkeit ordnungsgemäß
Der Agent erzeugt Ausgaben, die nachgelagerte Geschäftsprozesse korrekt auslösen

Simulierte Fehlerprüfung: – Timeout-Fehler in externe API-Aufrufe einfügen

Geben Sie fehlerhafte oder fehlende Daten an
Simulieren Sie die Nichtverfügbarkeit des Modellanbieters – Testen Sie die ordnungsgemäße Verschlechterung, wenn der Agent die Aufgabe nicht abschließen kann

Produktionsüberwachungsarchitektur

Vier Säulen der KI-Agentenüberwachung

Säule 1: Betriebsgesundheit (Standard-Softwareüberwachung)

Betriebszeit und Verfügbarkeit
Latenz pro Ausführung (P50, P95, P99)
Fehlerrate (Agentenabstürze, nicht behandelte Ausnahmen, API-Fehler)
Warteschlangentiefe und Durchsatz
Ressourcennutzung (CPU, Speicher, API-Parallelität)

Säule 2: Ausgabequalität (KI-spezifische Überwachung)

Genauigkeitsrate der abgetasteten Ausgaben (menschlich oder LLM-beurteilt)
Halluzinationserkennung (Ausgaben, die Informationen enthalten, die nicht im angegebenen Kontext stehen)
Formatkonformitätsrate (Ausgaben, die der erforderlichen Struktur entsprechen)
Verteilung der Konfidenzwerte (Agenten, die plötzlich eine Verschlechterung des Konfidenzsignals ausdrücken)
Aufgabenabschlussrate (Agent erzeugt erfolgreich eine vollständige Ausgabe, anstatt einen Fehler oder eine unvollständige Antwort zurückzugeben)

Säule 3: Geschäftsauswirkungen (Ergebnisüberwachung)

Erfolgsquote nachgelagerter Maßnahmen (Bestellungen erfolgreich aufgegeben, Genehmigungen korrekt weitergeleitet usw.)
Human-Override-Rate (wie oft Menschen die Entscheidungen des Agenten außer Kraft setzen)
Kundenzufriedenheit für kundenorientierte Agenten (CSAT, NPS)
Ausnahmerate (Eingaben werden zur menschlichen Überprüfung eskaliert)
Prozesszykluszeit (End-to-End-Task-Abschlusszeit)

Säule 4: Kosten (Token- und API-Kostenüberwachung)

Token-Verbrauch pro Ausführung (Input + Output)
Kosten pro erfolgreich abgeschlossener Aufgabe
Anomale Token-Nutzung (Ausführungen verbrauchen deutlich mehr Token als der Durchschnitt, Signal-Prompt-Injection oder Kontextverschmutzung)
Täglicher/wöchentlicher Kostentrend vs. Prognose

Observability-Implementierung

OpenClaw bietet eine integrierte Ausführungsverfolgung. Jeder Agentenlauf erzeugt eine strukturierte Ablaufverfolgung, einschließlich: – Ausführungs-ID und Zeitstempel

Eingabedaten (mit angewendeter PII-Redaktion)
Kontext abgerufen (RAG-Blöcke, vorherige Gesprächsrunden)
Vollständige Eingabeaufforderung an LLM gesendet
LLM-Antwort
Nachbearbeitungsschritte
Endgültige Ausgabe
Anzahl und Kosten der Token
Gesamtausführungszeit
Eventuelle Ausnahmen oder Eskalationen

Diese Trace-Daten ermöglichen ein Post-hoc-Debugging, wenn ein Agent eine falsche Ausgabe erzeugt. Sie können die genaue Ausführung nachvollziehen und jeden Schritt sehen.

Trace-Sampling-Strategie:

Stichprobe von 100 % der Transaktionen mit hohem Wert (monetäre Auswirkung von mehr als X $)
Probieren Sie 100 % der Ausnahmen und Eskalationen aus
Stichproben von 5–10 % der Routinetransaktionen zur Qualitätsüberwachung
Probieren Sie 100 % der Ausgaben für Kunden aus, die Probleme melden

Dashboard-Design

Effektive Dashboards zur KI-Agentenüberwachung kommunizieren andere Informationen als herkömmliche Anwendungs-Dashboards. Tastenfelder:

Echtzeit-Bedienfeld:

Aktive Hinrichtungen
Warteschlangentiefe
Ausführungsrate (letzte 5 Minuten im Vergleich zum Ausgangswert)
Fehlerrate (letzte 5 Minuten)
P95-Latenz

Qualitätstrend-Panel (24-Stunden-Ansicht):

Genauigkeitsratentrend (aus Stichprobenauswertung)
Trend zur menschlichen Übersteuerungsrate
Trend der Ausnahme-/Eskalationsrate
Verteilung der Konfidenzwerte

Kostenfeld:

Heutiger Token-Verbrauch im Vergleich zur Prognose
Kosten pro erfolgreicher Aufgabe (Trend)
Anomale Ausführungen (Ausreißer-Token-Verbrauch)
Wöchentliche Kostenprognose

Geschäftsergebnispanel:

Aufgabenabschlussrate nach Workflow-Typ
Downstream-Erfolgsquote
Kundenzufriedenheit (falls gemessen)
Verarbeitetes Volumen (im Vergleich zur Vorperiode)

Drifterkennung

Überwachung der Eingabeverteilung

Verfolgen Sie Statistiken über die Verteilung Ihrer Eingabedaten im Zeitverlauf. Warnung vor bedeutenden Veränderungen:

Vokabulardrift (es tauchen neue Begriffe auf, die nicht in den Trainingsdaten enthalten waren)
Änderungen der Eingabelängenverteilung (ungewöhnlich lange oder kurze Eingaben)
Sprach- oder Formatänderungen bei Eingaben – Neue Dokumenttypen erscheinen in Dokumentverarbeitungspipelines

Erkennung von Modellversionsänderungen

LLM-Anbieter aktualisieren ihre Modelle kontinuierlich. Einige Updates sind still (gleiche Modellkennung, unterschiedliche Gewichtungen). Überwachen Sie Folgendes:

Änderungen der Antwortlängenverteilung
Änderungen der Formatkonformitätsrate
Änderungen des Latenzprofils
Änderungen bei der Verteilung der Konfidenzwerte

Wenn sich eine dieser Metriken erheblich ändert, führen Sie sofort die Golden-Dataset-Bewertung durch, um die Auswirkung auf die Genauigkeit zu quantifizieren.

Konzeptdrift

Menschliche Überschreibungsrate nach Ursachencode (zunehmende Überschreibungen aus einem bestimmten Grund weisen auf eine Konzeptabweichung in diesem Bereich hin)
Änderungen der Fehlertypverteilung
Gründe für die Eskalation von Ausnahmen

Reaktion auf Vorfälle für KI-Agenten

Schweregrade des Vorfalls:

Ebene	Definition	Reaktionszeit	Aktion
P1	Agent, der systematisch falsche Ergebnisse erzeugt, die sich auf Finanz- oder Sicherheitsentscheidungen auswirken	Sofort	Agent deaktivieren, manuelles Fallback
P2	Die Genauigkeit ist um mehr als 10 % unter den Ausgangswert gesunken	30 Minuten	Alarmieren, Grundursache bewerten, Deaktivierung in Betracht ziehen
P3	Ausnahmequote erhöht, Qualität grenzwertig	2 Stunden	Untersuchen, genau überwachen
P4	Die Leistung ist beeinträchtigt, liegt jedoch innerhalb des akzeptablen Schwellenwerts	Nächster Werktag	Protokoll für nächsten Iterationszyklus

P1-Playbook zur Reaktion auf Vorfälle:

Erkennen: Automatische Alarmauslösung vom Überwachungssystem
Bewerten (5 Minuten): Überprüfen Sie die letzten Ausführungen und identifizieren Sie Fehlermuster
Enthalten (10 Minuten): Wechseln Sie zum manuellen Fallback-Prozess und deaktivieren Sie ggf. den Agenten
Diagnose (30–60 Minuten): Identifizieren Sie die Grundursache (Modelländerung, Verschiebung der Eingabeverteilung, prompte Regression, Integrationsfehler)
Abhilfe: Korrektur anwenden (prompte Aktualisierung, Modell-Rollback, Änderung der Eingabevalidierung, Integrationskorrektur)
Validieren: Führen Sie eine Golden-Dataset-Bewertung für einen festen Agenten durch
Wiederherstellen: Agent mit Überwachung im erhöhten Alarmzustand erneut aktivieren
Post-Mortem: Dokumentieren Sie innerhalb von 48 Stunden – was fehlgeschlagen ist, warum und wie man ein erneutes Auftreten verhindert

A/B-Tests für Agentenverbesserungen

Die Verbesserung von KI-Agenten erfordert eine sichere Bewertung der Änderungen vor der vollständigen Bereitstellung. A/B-Tests ermöglichen Folgendes:

Häufig gestellte Fragen

Wie oft sollten wir Golden-Dataset-Auswertungen in der Produktion durchführen?

Wie erkennen wir, wenn der LLM-Anbieter das Modell stillschweigend aktualisiert?

Was ist ein akzeptabler Genauigkeitsschwellenwert für Produktions-KI-Agenten?

Wie gehen wir mit der DSGVO und den Datenschutzanforderungen für die Speicherung von Agent-Ausführungsspuren um?

Wie hoch ist die Stichprobenrate menschlicher Bewertungen, die wir für eine effektive Qualitätsüberwachung benötigen?

Können wir den menschlichen Überprüfungsprozess mithilfe eines anderen LLM automatisieren?

Testen und Überwachen von KI-Agenten in der Produktion

Testen und Überwachen von KI-Agenten in der Produktion

Warum das Testen von KI-Agenten anders ist

Test-Framework vor der Produktion

Unit-Tests für Fähigkeiten

Golden Dataset-Tests

Integrationstests

Produktionsüberwachungsarchitektur

Vier Säulen der KI-Agentenüberwachung

Observability-Implementierung

Dashboard-Design

Drifterkennung

Überwachung der Eingabeverteilung

Erkennung von Modellversionsänderungen

Konzeptdrift

Reaktion auf Vorfälle für KI-Agenten

A/B-Tests für Agentenverbesserungen

Häufig gestellte Fragen

Nächste Schritte

Erstellen Sie intelligente KI-Agenten

Verwandte Artikel

Odoo-Tests: TransactionCase, HttpCase, Tags, post_install

OpenClaw-Kostenoptimierung und Token-Effizienz im großen Maßstab

OpenClaw Installation Quickstart 2026: Erster Agent in 15 Minuten

Mehr aus Performance & Scalability

Odoo 19 HR: Kompetenzmatrix, Karrierepläne, Leistungszyklen

Odoo 19 Leistungsbenchmarks: PostgreSQL 17 Tuning-Nummern

OpenClaw-Kostenoptimierung und Token-Effizienz im großen Maßstab

Inkrementelle Power BI-Aktualisierung für Tabellen mit mehr als 10 Millionen Zeilen

Webhook-Debugging und -Überwachung: Der vollständige Leitfaden zur Fehlerbehebung

k6-Lasttest: Führen Sie vor dem Start einen Stresstest für Ihre APIs durch

Testen und Überwachen von KI-Agenten in der Produktion

Testen und Überwachen von KI-Agenten in der Produktion

Warum das Testen von KI-Agenten anders ist

Test-Framework vor der Produktion

Unit-Tests für Fähigkeiten

Golden Dataset-Tests

Integrationstests

Produktionsüberwachungsarchitektur

Vier Säulen der KI-Agentenüberwachung

Observability-Implementierung

Dashboard-Design

Drifterkennung

Überwachung der Eingabeverteilung

Erkennung von Modellversionsänderungen

Konzeptdrift

Reaktion auf Vorfälle für KI-Agenten

A/B-Tests für Agentenverbesserungen

Häufig gestellte Fragen

Nächste Schritte

Erstellen Sie intelligente KI-Agenten

Verwandte Artikel

Odoo-Tests: TransactionCase, HttpCase, Tags, post_install

OpenClaw-Kostenoptimierung und Token-Effizienz im großen Maßstab

OpenClaw Installation Quickstart 2026: Erster Agent in 15 Minuten

Mehr aus Performance & Scalability

Odoo 19 HR: Kompetenzmatrix, Karrierepläne, Leistungszyklen

Odoo 19 Leistungsbenchmarks: PostgreSQL 17 Tuning-Nummern

OpenClaw-Kostenoptimierung und Token-Effizienz im großen Maßstab

Inkrementelle Power BI-Aktualisierung für Tabellen mit mehr als 10 Millionen Zeilen

Webhook-Debugging und -Überwachung: Der vollständige Leitfaden zur Fehlerbehebung

k6-Lasttest: Führen Sie vor dem Start einen Stresstest für Ihre APIs durch