Testing and Monitoring AI Agents in Production

A complete guide to testing and monitoring AI agents in production environments. Covers evaluation frameworks, observability, drift detection, and incident response for OpenClaw deployments.

E
ECOSIRE Research and Development Team
|2026年3月19日4 分で読める729 語数|

Performance & Scalabilityシリーズの一部

完全ガイドを読む

本番環境での AI エージェントのテストと監視

AI エージェントを本番環境にデプロイするだけで実装が完了するわけではありません。従来のソフトウェアには存在しない運用規律の始まりです。従来のアプリケーションは決定的に失敗します。同じ入力を与えると、同じ(間違った)出力が得られます。 AI エージェントは確率的に失敗します。同じ入力から 97% の確率で正しい出力が生成され、3% の確率で微妙に間違った出力が生成されます。その 3% は、モデルが更新され、入力分布が変化し、ビジネス ルールが進化すると変化します。

このガイドでは、OpenClaw 実装の特定のパターンを使用して、展開前に AI エージェントをテストし、本番環境で AI エージェントを継続的に監視するための完全な運用フレームワークについて説明します。

重要なポイント

  • AI エージェントのテストには、機能テスト (正しい出力) と動作テスト (一貫した推論) の両方が必要です
  • モデルが更新されるときは回帰テストが重要です - そうでないことが証明されるまで動作が変わると想定します
  • 本番環境の監視では、可用性や遅延だけでなく、精度の指標も追跡する必要があります
  • トークンの使用量とコストの監視により、予期しない請求の急増を防止します
  • エージェント出力の異常検出により、ビジネスの成果に影響を与える前に精度の低下を検出します。
  • 人間によるレビューサンプリングにより、自動モニタリングを調整するためのグラウンドトゥルースが得られます
  • AI エージェントのインシデント対応プレイブックは、従来のソフトウェア インシデントとは根本的に異なります
  • A/B テスト フレームワークにより、迅速な変更とモデルのアップグレードを安全に評価できます

AI エージェントのテストが異なる理由

AI エージェントのテストには、従来のソフトウェアのテストとは根本的に異なる考え方が必要です。従来のソフトウェア テストでは、テスト ケースを作成し、入力を提供し、期待値に対して出力を検証します。テストに一貫して合格した場合、ソフトウェアは正しいです。

AI エージェントはこのようには機能しません。それらの出力は確率的であり、正しいこともあれば、わずかにずれていることも、完全に間違っていることもあり、結果の確率分布は、モデルのバージョン、提供されたコンテキスト、および入力の特定の表現によって異なります。従来のテストは次の 3 つの課題により不十分になっています。

非決定性: 同じプロンプトを 2 回実行すると、異なる出力が生成される可能性があります。テストでは、出力品質を完全に同等ではなく、範囲内で評価する必要があります。

モデル バージョンの感度: LLM プロバイダーが新しいモデル バージョンをリリースすると、エージェントの動作がすぐには分からない形で変化する可能性があります。タスクに対して 94% の精度だったモデルは、96% に改善されるか、91% に低下する可能性があります。これを検出するメカニズムが必要です。

コンテキスト依存性: エージェントの動作は、提供されたコンテキスト (取得されたドキュメント、会話履歴、システム指示) に大きく依存します。コンテキストのアセンブリにおける小さな変更は、出力の品質に大きな影響を与える可能性があります。


実稼働前テストのフレームワーク

スキルの単体テスト

各 OpenClaw スキルには、代表的な入力サンプルを使用してその動作を検証するテスト スイートが必要です。これらのテストは標準のassert-equalsテストではなく、出力品質をスコアリングする評価フレームワークを使用します。

契約レビューのためのテスト構造 スキル:

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

各テストの評価基準:

  • 思い出してください (エージェントはそこにあったものを見つけましたか?)
  • 精度 (エージェントは関連する項目のみにフラグを立てましたか?) ・リスク評価の精度(リスクレベルは適切か?)
  • 推奨されるアクションの完全性
  • 出力形式の準拠 (必須フィールドが存在し、正しい構造)

ゴールデン データセットのテスト

人間が検証した期待される出力を備えた 50 ~ 200 の代表的な入力からなる黄金のデータセットを維持します。すべての実稼働デプロイメントの前に、このデータセットに対してエージェントを実行し、精度メトリクスを計算します。しきい値を下回る精度のデプロイメントはブロックされます。

ゴールデン データセットの構築:

  1. 運用トラフィックから実際の入力を 200 件収集します (必要に応じて匿名化されます)。
  2. ドメインの専門家にそれぞれの正しい出力をレビューして注釈を付けてもらいます
  3. エッジケース、異常な入力、一般的なエラーパターンをカバーするためにデータセットを層化する
  4. ゴールデン データセットに対してベースラインの精度指標を確立する
  5. ベースラインを下回る回帰を展開の阻害要因として扱う

ゴールデン データセットの自動評価: LLM を評価者として雇用またはトレーニングします。これは、エージェントの出力と人間が検証した期待される出力を受け取り、類似性/正確性スコアを生成する別の LLM 呼び出しです。これは「裁判官としてのLLM」パターンです。境界例の人間によるレビューと組み合わせることで、ゴールデン データセットの評価を頻繁な実行まで拡張できます。

統合テスト

統合を含むシステム全体にわたってエージェントの動作をエンドツーエンドでテストします。

統合テストのシナリオ:

  • エージェントは ERP から読み取り、データを処理し、書き戻します — データの整合性を検証します
  • エージェントは外部 API を呼び出し、成功および失敗の応答を処理します
  • エージェントはマルチエージェント ワークフローで別のエージェントと調整します
  • エージェントはタイムアウト、レート制限、および API の利用不能を適切に処理します
  • エージェントは、下流のビジネス プロセスを正しくトリガーする出力を生成します。

模擬故障テスト:

  • 外部 API 呼び出しでタイムアウト エラーを挿入する
  • 不正な形式または欠落したデータを提供する
  • モデルプロバイダーが利用できない場合のシミュレーション
  • エージェントがタスクを完了できない場合の正常な機能低下をテストします。

本番監視アーキテクチャ

AI エージェント監視の 4 つの柱

柱 1: 運用の健全性 (標準ソフトウェア監視)

  • 稼働時間と可用性
  • 実行ごとのレイテンシ (P50、P95、P99)
  • エラー率 (エージェントのクラッシュ、未処理の例外、API エラー)
  • キューの深さとスループット
  • リソース使用率 (CPU、メモリ、API 同時実行性)

柱 2: 出力品質 (AI 固有のモニタリング)

  • サンプリングされた出力の精度率 (人間による判断または LLM による判断)
  • 幻覚の検出 (提供されたコンテキストにない情報を含む出力)
  • フォーマット適合率(要求された構造を満たした出力)
  • 信頼スコアの分布 (信頼度の低下を突然示すエージェント)
  • タスク完了率 (エージェントが完全な出力を正常に生成するか、エラーまたは不完全な応答を返すか)

柱 3: ビジネスへの影響 (結果のモニタリング)

  • 下流アクションの成功率 (注文が正常に行われた、承認が正しくルーティングされたなど)
  • 人間によるオーバーライド率 (人間がエージェントの決定をオーバーライドする頻度)
  • 顧客対応エージェントの顧客満足度 (CSAT、NPS)
  • 例外率 (人間によるレビューにエスカレーションされた入力)
  • プロセスサイクルタイム(エンドツーエンドのタスク完了時間)

柱 4: コスト (トークンと API のコストの監視)

  • 実行ごとのトークン消費量 (入力 + 出力)
  • タスク完了ごとのコスト
  • 異常なトークン使用量 (平均的なシグナル プロンプト インジェクションまたはコンテキスト汚染よりも大幅に多くのトークンを消費する実行)
  • 日次/週次のコスト傾向と予測

可観測性の実装

OpenClaw は、組み込みの実行トレースを提供します。エージェントを実行するたびに、次のような構造化トレースが生成されます。

  • 実行IDとタイムスタンプ
  • 入力データ (PII 編集が適用されたもの)
  • 取得されたコンテキスト (RAG チャンク、前の会話ターン)
  • 完全なプロンプトが LLM に送信される
  • LLM 応答
  • 後処理ステップ
  • 最終出力
  • トークンの数とコスト
  • 合計実行時間
  • 例外またはエスカレーション

このトレース データにより、エージェントが不正な出力を生成した場合の事後デバッグが可能になります。正確な実行を再生して、すべてのステップを確認できます。

トレース サンプリング戦略:

  • 高額取引の 100% をサンプリング (X ドル以上の金銭的影響)
  • 例外とエスカレーションの 100% のサンプル
  • 品質監視のために日常的なトランザクションの 5 ~ 10% をサンプリング
  • 問題を報告する顧客の出力の 100% のサンプル

ダッシュボードのデザイン

効果的な AI エージェント監視ダッシュボードは、従来のアプリケーション ダッシュボードとは異なる情報を伝達します。キーパネル:

リアルタイム操作パネル:

  • アクティブな実行
  • キューの深さ
  • 実行率 (過去 5 分間とベースラインとの比較)
  • エラー率 (過去 5 分間)
  • P95 レイテンシ

品質傾向パネル (24 時間表示):

  • 正解率の傾向(サンプル評価より)
  • 人間のオーバーライド率の傾向
  • 例外/エスカレーション率の傾向
  • 信頼スコアの分布

コストパネル:

  • 今日のトークン消費量と予測
  • 成功したタスクあたりのコスト (傾向)
  • 異常な実行 (異常値のトークン消費)
  • 毎週のコスト予測

ビジネス成果パネル:

  • ワークフロー タイプ別のタスク完了率
  • 下流の成功率
  • 顧客満足度 (測定された場合)
  • 処理量(前期比)

ドリフト検出

AI エージェントの最も危険な障害モードの 1 つは段階的なドリフトです。入力の分布がトレーニング分布から離れるにつれて、またはプロバイダーによってモデルが更新されるにつれて、エージェントのパフォーマンスは時間の経過とともにゆっくりと低下します。

入力分布の監視

入力データの分布に関する統計を長期にわたって追跡します。重要なシフトに関するアラート:

  • 語彙のドリフト (トレーニング データにはない新しい用語が出現する)
  • 入力長分布の変更 (異常に長いまたは短い入力)
  • 入力の言語または形式の変更
  • 文書処理パイプラインに新たな文書タイプが登場

モデルバージョン変更の検出

LLM プロバイダーはモデルを継続的に更新します。一部の更新はサイレントです (同じモデル ID、異なる重み)。以下を監視します:

  • 応答長分布の変更
  • フォーマット準拠率の変更
  • レイテンシープロファイルの変更
  • 信頼スコアの分布の変更

これらの指標のいずれかが大きく変化した場合は、ゴールデン データセットの評価をすぐに実行して、精度への影響を定量化します。

コンセプトのドリフト

ビジネス ルールとドメイン知識は時間の経過とともに変化します。 2024 年の価格設定ルールを適用するようにトレーニングされたエージェントは、2025 年の価格設定ルールが有効になると誤った出力を生成します。モニター:

  • 理由コード別の人間によるオーバーライド率 (特定の理由によるオーバーライドの増加は、その領域におけるコンセプトのドリフトを示します)
  • エラーの種類の分布の変更
  • 例外エスカレーションの理由

AI エージェントのインシデント対応

AI エージェントのインシデントは、従来のソフトウェア インシデントとは異なります。多くの場合、障害はクラッシュではなく、ビジネスの成果に微妙に影響を与える出力品質の低下です。

インシデントの重大度レベル:

レベル定義応答時間アクション
P1エージェントが組織的に間違った出力を生成し、財務または安全性の決定に影響を与える即時エージェントを無効にする、手動フォールバック
P2精度がベースラインより 10% 以上低下30分アラート、根本原因を評価し、無効にすることを検討してください。
P3例外発生率が上昇、品質は限界2時間調査し、注意深く監視する
P4パフォーマンスは低下しましたが、許容可能なしきい値内です翌営業日次の反復サイクルのログ

P1 インシデント対応ハンドブック:

  1. 検出: 監視システムからの自動アラートトリガー
  2. 評価 (5 分): 最近の実行を確認し、エラー パターンを特定します
  3. 含む (10 分): 手動フォールバック プロセスに切り替え、必要に応じてエージェントを無効にします
  4. 診断 (30 ~ 60 分): 根本原因の特定 (モデルの変更、入力分布のシフト、プロンプトの回帰、統合の失敗)
  5. 修正: 修正を適用します (即時更新、モデルのロールバック、入力検証の変更、統合修正)
  6. 検証: 固定エージェントに対してゴールデン データセット評価を実行します。
  7. 復元: 昇格したアラート状態での監視を使用してエージェントを再度有効にします
  8. 事後分析: 48 時間以内に文書化 — 失敗した内容、理由、再発防止方法

エージェント改善のための A/B テスト

AI エージェントを改善するには、完全な展開の前に変更を安全に評価する必要があります。 A/B テストにより、次のことが可能になります。

シャドウ モード テスト: 出力を使用せずに、運用トラフィックで新しいエージェント バージョンを実行します。シャドウ出力を現在のエージェント出力と比較して、顧客に影響を与える前に違いを定量化します。

カナリア展開: 運用トラフィックの 5 ~ 10% を新しいエージェント バージョンにルーティングします。カナリア個体群と対照個体群の品質指標を監視します。メトリクスが改善または維持されている場合はロールフォワードし、悪化している場合はロールバックします。

チャンピオン/チャレンジャー: 現在の制作エージェントは「チャンピオン」です。新しいエージェントのバージョンは「チャレンジャー」です。挑戦者は、チャンピオンに昇格する前に、ゴールデン データセットで統計的に有意な改善を証明する必要があります。

ロールバック トリガー: 自動ロールバック トリガーを定義します。カナリアの精度がしきい値を下回るか、人間のオーバーライド率がしきい値を超えて増加した場合、自動的にチャンピオンに戻ります。


よくある質問

本番環境ではゴールデン データセットの評価をどのくらいの頻度で実行する必要がありますか?

すべての展開 (モデル バージョンの変更を含む) で、ヘルス チェックとして毎週、監視で異常が検出されたときにすぐに実行します。一か八かのエージェント (財務上の決定、医療文書) の場合は、毎日実行します。自動化された CI/CD パイプラインは、コードが変更されるたびにゴールデン データセットの評価を自動的にトリガーできます。

LLM プロバイダーがモデルをサイレントに更新することをどのように検出しますか?

安定している必要がある応答特性を監視します: 平均応答長、形式準拠率、信頼スコア分布、待ち時間プロファイル。これらのメトリクスに大きな変化があると、精度への影響を定量化するためのゴールデン データセット評価がトリガーされます。一部のプロバイダーは、特定のバージョンに固定するモデルのバージョン管理を提供しています。利用可能な場合はこれを使用してください。

実稼働 AI エージェントの許容可能な精度のしきい値はどれくらいですか?

これは、ユースケースとエラーのコストに完全に依存します。エージェントが自律的に財務上の意思決定を行う場合、通常は 98% 以上の精度が必要です。エージェントが人間がレビューするドラフトを作成する場合、人間がエラーを発見するため、多くの場合 85 ~ 90% が許容されます。エラーが発生してもリスクが低い内部分析を生成するエージェントの場合は、80% で十分な場合があります。任意のベンチマークではなく、エラー コスト分析に基づいてしきい値を定義します。

エージェントの実行追跡を保存するための GDPR およびデータ プライバシー要件にはどのように対処すればよいですか?

OpenClaw のトレース システムは、保存前の PII 編集をサポートしています。トレース設定でどのフィールドを編集するかを設定します。トレースは、データ最小化要件に準拠するように構成可能な保存期間で保存されます。 EU ベースの展開の場合、トレース ストレージを EU のみのリージョンに構成できます。個人は、GDPR の消去権規定に基づいて、トレースからのデータの削除を要求できます。

効果的な品質モニタリングに必要な人によるレビューのサンプリング レートはどれくらいですか?

ほとんどのエージェントでは、生産出力の 2 ~ 5% のサンプリングにより、統計的に有意な品質モニタリングが可能になります。価値の高い薬剤やリスクの高い薬剤の場合は、10 ~ 20% に増やします。レビュープロセスは構造化されている必要があります。レビュー担当者は一般的な印象ではなく、標準化されたルーブリックを使用します。 OpenClaw のレビュー インターフェイスは、サンプル出力をルーブリックとともに表示し、構造化されたフィードバックを取得します。

別の LLM を使用して人間によるレビュー プロセスを自動化できますか?

部分的に。 「裁判官としての LLM」パターンは、出力形式、完全性、および基本的な事実の正確さを評価するのに適しています。これらは、ドメイン固有の正確性を評価する場合にはあまり機能しません(契約リスク評価が正しいかどうかには、一般的な AI の判断ではなく、法律の専門知識が必要です)。スケールには自動 LLM 評価を使用し、校正と検証には人によるレビューを使用します。


次のステップ

AI エージェントの実稼働グレードのテストと監視を実装するには、AI システムと DevOps 実践の両方の経験が必要です。 ECOSIRE の OpenClaw 実装には、特定のエージェント ワークフロー向けに設計された監視アーキテクチャ、事前設定されたダッシュボード、アラート ポリシー、およびインシデント対応ランブックが含まれています。

OpenClaw サポートおよびメンテナンス サービスを調べる して、継続的な監視と最適化のオプションについて学習したり、現在または計画されている OpenClaw 導入の監視アーキテクチャについて話し合うためのコンサルティングをスケジュールしたりできます。

E

執筆者

ECOSIRE Research and Development Team

ECOSIREでエンタープライズグレードのデジタル製品を開発。Odoo統合、eコマース自動化、AI搭載ビジネスソリューションに関するインサイトを共有しています。

WhatsAppでチャット