OpenClaw スキルのトレーニングと微調整
一般的な基盤モデルとともに導入された OpenClaw スキルは、文書の要約、構造化データの抽出、ワークフローの調整などの標準的なビジネス タスクで優れたパフォーマンスを発揮します。しかし、医療コーディング、法的条項分析、特殊な技術分類、業界固有のリスク評価など、分野固有のタスクでは、製品品質の精度を達成するために、特定の分野に合わせて調整されたモデルとプロンプトが必要です。
このガイドでは、微調整が必要な時期の特定から、データの準備、実行の微調整、評価、継続的な反復まで、OpenClaw スキルのトレーニングと微調整の完全なワークフローを説明します。
重要なポイント
- 微調整により、一般的な基盤モデルと比較してドメイン固有のタスクの精度が 15 ~ 40% 向上します
- 微調整に投資する前に、迅速なエンジニアリングと数回の学習を徹底的に行う必要があります
- 微調整には、ほとんどのビジネス タスクに対して 500 ~ 5,000 の高品質のトレーニング サンプルが必要です
- データの量よりも質が重要 — 500 個の優れた例は、5,000 個の平凡な例よりも優れたパフォーマンスを発揮します
- 微調整されたモデルを運用環境にデプロイする前に、保持されたテスト セットに対する評価が必要です
- ビジネス ルールの変更やモデルのドリフトが検出された場合、微調整されたモデルは再トレーニングが必要
- LoRA のような PEFT (パラメータ効率の良い微調整) メソッドにより、大規模な計算を行わずに微調整が可能になります
- 4 ~ 8 週間の反復サイクルにより、時間の経過とともにモデルのパフォーマンスが継続的に向上します。
微調整が必要な場合 (または必要でない場合)
微調整は、エージェントの精度を向上させるための最初の手段ではありません。これは、より単純なアプローチが使い果たされた後の最後の手段です。投資は特定の状況において正当化されます。
ここから始めましょう: プロンプト エンジニアリング。 トレーニングに投資する前に、プロンプトを最適化してください。同じタスクに対する平凡なプロンプトと優れたプロンプトの差は、多くの場合 20 ~ 30% の精度の向上です。テクニック: タスクの明確な説明、明示的な出力形式の指定、思考連鎖の指示、プロンプト内の 1 つまたは 2 つの例 (少数のショット)。多くのチームは、より適切な迅速なエンジニアリングによって問題が解決されるであろう場合に、微調整に投資します。
次に: RAG (検索拡張生成)。 特定の知識 (製品カタログの詳細、規制規則、企業固有の情報) へのアクセスが必要なタスクの場合、多くの場合、情報を「認識」するためにモデルを微調整するよりも、コンテキスト内で関連する知識を提供する方が効果的です。 RAG は保守性が高く、情報が変更されたときにモデルではなくナレッジ ベースを更新します。
次に: プロンプト内のいくつかのショットの例。 3 ~ 10 個の高品質の入出力サンプルをプロンプトに追加すると (コンテキスト内学習)、構造化タスクのパフォーマンスが大幅に向上します。これは、出力形式、詳細レベル、期待されるスタイルを示す最も速い方法です。
微調整は次の場合に正当化されます。
- このタスクには、文脈に適合しない内部化された知識が必要です (広範な規制ルールブック、大規模な製品分類階層)
- 出力形式は非常に特殊であり、コンテキスト内の例では一貫した準拠が達成されていません。
- タスクでは、一般的なモデルでは正しく処理できない特殊な用語が使用されます。
- レイテンシーの制約により、大きなコンテキスト ウィンドウが禁止されます (微調整されたモデルは同等の精度で高速になります)
- 迅速なエンジニアリングと RAG アプローチを徹底的に行った後でも、精度はしきい値を下回ったままです
OpenClaw スキル アーキテクチャを理解する
微調整に入る前に、スキルの仕組みがトレーニングのアプローチをどのように形作るかを理解してください。
スキルは、次の 4 つのコンポーネントで構成されたエージェント機能です。
システム プロンプト: スキルの役割、タスク、出力形式、および制約を定義する指示。これは、微調整以外の改善を行うための主要な手段です。
入力スキーマ: スキルが受け入れる構造化入力、つまり期待されるデータフィールド、そのタイプ、および必須のものを定義します。
モデル構成: このスキルに使用される基礎モデルと推論パラメーター (温度、最大トークン、トップ p)。タスクごとに、設定ごとにメリットが得られます。
出力スキーマ: 構造化された出力形式を定義します。強力な出力スキーマを持つスキルは、自由形式の出力を持つスキルよりも一貫性があり、解析可能な結果を生成します。
微調整はモデル コンポーネントをターゲットにし、特定のスキルのタスクとドメインでより良いパフォーマンスを発揮するようにモデルの重みを調整します。プロンプトの最適化は、システム プロンプトを対象としています。どちらも補完的なものです。
微調整アプローチ
完全な微調整: すべてのモデル パラメーターはトレーニング中に更新されます。最大の精度向上が得られますが、大量のコンピューティングが必要であり、高価です。 ML エンジニアリング リソースと大規模なトレーニング データセット (10,000 以上の例) を持つ組織でのみ実用的です。
PEFT (パラメーター効率の良い微調整): パラメーターの小さなサブセットのみが更新されるため、コンピューティング要件が大幅に軽減されます。最も一般的な PEFT 手法は LoRA (低ランク適応) で、10 ~ 100 分の 1 のコンピューティングとメモリを使用して完全な微調整と同等の結果を達成します。
LoRA 微調整は、ほとんどの OpenClaw スキル微調整ニーズに対して推奨されるアプローチです。理由は次のとおりです。
- 特殊な ML インフラストラクチャなしでクラウド GPU インスタンスで実現可能
- 500 ~ 5,000 例のトレーニング データセットで十分です
- トレーニングの実行は数日ではなく数時間で完了します
- スキルごとに 1 つずつ、複数の LoRA アダプターを同時に保守できます
- LoRA アダプターは、基本モデルをリロードせずに交換できます
プロンプト チューニング: 少数の「ソフト プロンプト」トークンのみがトレーニングされる、よりソフトなアプローチ。 LoRA よりも計算量は少なくなりますが、通常は精度の向上が小さくなります。マイナーなスタイルとフォーマットの調整に適しています。
RLHF (人間のフィードバックからの強化学習): 人間の好みの評価に関する報酬モデルのトレーニングと、それを使用したモデルの微調整のガイドが含まれます。主観的な品質向上 (書き方、適切さ、有用性) に関して最良の結果が得られますが、人間によるラベル付けの多大な労力と ML の専門知識が必要です。
データの準備
データ品質は、微調整が成功するかどうかを決定する唯一の最も重要な要素です。モデルはトレーニング データの内容を複製することを学習します。トレーニング データが一貫性がない、不正確である、または低品質である場合、微調整されたモデルも同様になります。
データ収集戦略
運用トラフィックのサンプリング: スキルがすでにデプロイされている場合 (精度が低い可能性があります)、運用入力をサンプリングし、ドメインの専門家にそれぞれの正しい出力に注釈を付けてもらいます。これにより、本番環境でスキルが目にする入力の実際の分布が反映されるため、最大限に代表的なトレーニング データが生成されます。
エキスパートの構築: ドメインエキスパートは、スキルが処理する必要があるケースの全範囲をカバーする入出力ペアを手動で構築します。これは高品質ですが高価であり、本番環境で表示されるケースが見逃される可能性があります。
拡張: データセットを拡張するための既存の例の系統的なバリエーション。契約条項分類タスクの場合: 一貫したラベルを維持しながら、条項の言語、契約管轄区域、業界を変更します。
合成生成: 強力な基礎モデルを使用して、仕様からトレーニング サンプルを生成します。これは高速でスケーラブルですが、生成される合成データは実稼働条件を完全には表していない可能性があります。実際のデータの代替としてではなく、補足として使用します。
データ品質要件
正確性: すべてのトレーニング例は正しい必要があります。 100 個のうち 1 個の間違ったラベルは、例がないより悪いです。モデルは間違った動作を明示的に学習します。すべての例が資格のあるレビュー担当者によって検証されるレビュー プロセスを確立します。
一貫性: 同様の入力は同様の出力を生成する必要があります。 2 つのほぼ同一の契約条項が異なるリスク評価を受けた場合、モデルは信号ではなくノイズを学習します。明確なラベル付けガイドラインを確立し、トレーニング セットに追加する前に意見の相違を解決します。
対象範囲: トレーニング セットは、実稼働環境でスキルが遭遇する入力の全範囲をカバーする必要があります。カバレッジにギャップがあると、これまでに経験したケースでは優れたパフォーマンスを発揮するモデルが生成されますが、まだ経験のないケースではパフォーマンスが低下します。本番環境の分布を分析し、トレーニング データにそれが反映されていることを確認します。
形式: トレーニング データ形式は、スキルが運用環境で表示するものと正確に一致する必要があります。同じプロンプト テンプレート、同じ入力構造、同じ出力形式です。トレーニングと推論の間の形式の不一致は、微調整結果の低下の一般的な原因です。
データセット サイズのガイドライン
| タスクの複雑さ | 最小限のトレーニングの例 | おすすめ |
|---|---|---|
| 簡易分類(5~10カテゴリー) | 200 | 1,000以上 |
| 多クラス分類 (20 ~ 50 カテゴリ) | 500 | 2,000以上 |
| 構造化された抽出 | 300 | 1,500+ |
| シーケンス分類 (文書レベル) | 500 | 2,000以上 |
| 複雑な推論/スコアリング | 1,000 | 5,000以上 |
| オープンエンド型生成 | 1,000 | 5,000以上 |
これらは許容可能な結果のための最小値です。データが増えると、利益が逓減するまで一貫してパフォーマンスが向上します。
トレーニング/検証/テストの分割
ラベル付きデータセットを 3 つのパーティションに分割します。
- トレーニング セット (70-80%): 微調整中にモデルの重みを更新するために使用されます
- 検証セット (10-15%): トレーニングの進行状況を監視し、過剰適合を防ぐために使用されます。
- テスト セット (10-15%): 最終評価まで完全に保持 — トレーニング中には決して使用されない
テスト セットは、微調整されたモデルが本番データでどのように実行されるかについて、不偏な推定を提供します。テスト セットのパフォーマンスをトレーニングの決定に使用しないでください。データ漏洩や精度の過大な推定が発生します。
実行の微調整
環境設定
一般的なスキル タスク向けに LoRA アダプターを微調整するには、以下が必要です。
- GPU インスタンス: A10G (24GB VRAM) または 7B-13B パラメータ モデルの同等品。 A100 (80GB) 大型モデル用
- クラウドプロバイダー: AWS SageMaker、Google Vertex AI、Azure ML、または Lambda Cloud GPU インスタンス
- フレームワーク: ハグフェイストランスフォーマー + PEFT ライブラリ (LoRA 微調整用の標準)
- モニタリング: トレーニング実行追跡のための重みとバイアスまたは MLflow
ECOSIRE は、トレーニング コンサルティング サービスの一環として、事前構成された微調整環境を提供します。ML インフラストラクチャを個別にセットアップする必要はありません。
ハイパーパラメータの設定
LoRA 微調整のための主要なハイパーパラメータ:
LoRA ランク (r): LoRA アダプターのパラメーターの数を制御します。ランクが高い = パラメータが多い = 容量は優れていますが、過学習リスクが高くなります。 r=16 から始めて、r=8 と r=32 を試してください。
LoRA alpha: LoRA アップデートのスケーリング係数。通常はランク値の 2 倍に設定します (r=16 の場合は alpha=32)。
学習率: 高すぎるとモデルが発散します。低すぎるとトレーニングが遅くなります。ほとんどのスキル微調整では、2e-4 から 5e-4 が妥当な開始範囲です。
エポック: トレーニング データを通過するパスの数。検証損失を監視して最適なエポック数を決定します。検証損失が改善しなくなったら停止します (早期停止)。
バッチ サイズ: バッチが大きいほどトレーニングは速くなりますが、精度が低下する可能性があります。バッチ サイズと利用可能な GPU メモリのバランスをとります。
トレーニングのモニタリング
トレーニング中は、以下を監視します。
- トレーニングロス: 着実に減少するはずです。プラトーまたはスパイクは問題を示しています。
- 検証損失: トレーニング損失と並行して減少するはずです。発散 (検証損失が増加する一方でトレーニング損失が減少する) は、過学習を示します。トレーニング時間を短縮するか、正規化します。
- サンプル出力: トレーニング全体を通じてサンプル入力でモデルを定期的に評価し、正しい動作を学習していることを確認します。
評価と受け入れテスト
微調整によりモデルが作成されます。そのモデルがベースラインよりも優れているかどうかを判断するには、保持されたテスト セットに対する体系的な評価が必要です。
タスクタイプ別の標準メトリクス:
- 分類: 精度、クラスごとの F1 スコア、混同行列
- 抽出: 抽出された各フィールドの精度、再現率、F1
- スコアリング/評価: 平均絶対誤差、人間の評価との相関
- 生成: タスク固有のルーブリック評価 (スケールの判断として LLM を使用)
許容しきい値: トレーニングを開始する前に、最小精度しきい値を確立します。微調整されたモデルをデプロイするには、これらのしきい値を超える必要があります。一般的なしきい値:
- 微調整された精度がベースラインを 5 パーセント ポイント以上超えた場合は、一般モデルを交換します。
- 微調整された精度が定義された最小値 (例: テスト セットで 92%) を超えた場合に導入します。
エラー分析: 集計精度だけを見るのではなく、エラーを分析してください。モデルが常に間違っているのはどの入力タイプですか?エラー パターンは、データ品質の問題、カバレッジ ギャップ、または基本的なモデルの制限を示唆していますか?
回帰テスト: 微調整モデルは、基本モデルが適切に処理するタスクに対して回帰してはなりません。ゴールデン データセットの評価を実行して確認します。
デプロイメントとイテレーション
展開: 微調整された LoRA アダプターは、OpenClaw サービス インフラストラクチャの基本モデルとともにロードされます。微調整されたスキルのリクエストは、アダプター拡張モデルにルーティングされます。異なるスキル用の複数のアダプターは、同じサービス環境で共存できます。
展開後のモニタリング: テストおよびモニタリング ガイドで説明されているのと同じモニタリング アプローチを適用します。ドリフトを検出するには、微調整されたモデルを定期的に再評価する必要があります。
反復トリガー:
- 生産監視の精度がしきい値を下回る
- ビジネスルールが変更され、モデルが新しい動作を学習する必要がある
- トレーニングではカバーされなかった新しい入力タイプが本番環境に登場します
- 微調整が完了し、その結果は対処すべき特定のギャップを示唆します
反復プロセス:
- 特定されたギャップをカバーする生産インプットから新しいトレーニング例を収集する
- 既存のトレーニング データセットに追加する
- モデルを微調整します (基本モデルではなく、現在の微調整された重みから開始します)。
- 拡張されたテストセットに対して評価する
- 改善が確認できたら導入
成熟したスキルは年間 4 ~ 8 回の反復サイクルを経て、そのたびにパフォーマンスが段階的に向上します。
よくある質問
OpenClaw スキルのモデルの微調整にはどのくらいの費用がかかりますか?
7B ~ 13B パラメーター モデルでの一般的なスキル タスクの LoRA 微調整には、データセット サイズとモデル サイズに応じて、トレーニングの実行ごとにクラウド GPU コンピューティングで 50 ~ 300 ドルの費用がかかります。データの準備 (ラベル付け) のほうがコストが高くなります。ドメインの専門家から提供された 1,000 個のサンプルからなる適切にラベル付けされたデータセットには通常、専門家の時間で 2,000 ドルから 8,000 ドルの費用がかかります。 ECOSIRE のトレーニング コンサルティング サービスは、技術的な実行とデータ準備方法の両方をカバーします。
OpenAI または Anthropic のモデルを微調整できますか?
OpenAI は、微調整 API を介して GPT-4o mini および GPT-3.5 Turbo の微調整をサポートしています。 Anthropic は現在、Claude モデルの公開微調整を提供していません。 Google は、Vertex AI を介して Gemini モデルの微調整を提供しています。微調整が不可欠でフロンティア モデルを使用したいタスクの場合、OpenAI の微調整 API が最もアクセスしやすいパスです。微調整が不可欠であり、データ プライバシーのためにオンプレミス処理が必要なタスクの場合は、LoRA 微調整を備えたオープンソース モデル (Llama、Mistral、Qwen) が適切です。
ベース モデルが変更された場合、微調整されたモデルをどのように維持すればよいでしょうか?
基本モデルが更新されると (Llama、GPT-4o などの新バージョン)、古いバージョンでトレーニングされた LoRA アダプターは通常、新しいバージョンで再トレーニングする必要があります。これはメンテナンスに関する重要な考慮事項であり、メジャー モデル バージョンがリリースされたときに再トレーニング サイクルを計画します。 ECOSIRE のメンテナンス リテイナーには、微調整されたスキルを持つクライアント向けの対象サービスとしてモデルの再トレーニングが含まれています。
少数ショット プロンプトとは何ですか?いつ微調整の代わりになりますか?
フューショット プロンプトでは、入力/出力ペアの例がプロンプト内に直接提供され、モデルの重みを変更せずに正しい応答がどのように見えるかをモデルに示します。高品質のサンプルが 5 ~ 10 個あり、出力形式が一貫していて、タスクがモデルの一般的な機能の範囲内である場合に、これはうまく機能します。数十のサンプルが必要な場合 (コンテキスト ウィンドウの制限)、大量のパフォーマンスで一貫したパフォーマンスが必要な場合 (コンテキスト内のサンプルによりレイテンシとコストが追加される)、またはモデルが持っていない専門知識がタスクに必要な場合、この問題は発生します。
パフォーマンスの低下がプロンプトの問題なのかモデルの問題なのかをどのように判断すればよいでしょうか?
系統的なアブレーション テスト: 1 つの変数を一定に保ち、もう 1 つの変数を変更します。基本モデルを使用して複数のプロンプト配合をテストします。最適なプロンプトのパフォーマンスが依然としてしきい値を下回っている場合、問題はモデルの基礎的な機能にあります。微調整するか、より機能的な基本モデルに切り替える必要があります。プロンプトのバリアントが大きく異なる結果を生成する場合、問題はプロンプトの品質です。微調整する前にプロンプト エンジニアリングに投資してください。
微調整を実装するにはチームに ML エンジニアが必要ですか?
ECOSIREと協力している場合はそうではありません。微調整は、設定、実行、評価に関して ML エンジニアリングの専門知識を必要とする特殊な分野です。 ECOSIRE のトレーニング コンサルティング サービスは、ML エンジニアを雇用することなく、この専門知識を提供します。チームが提供する必要があるのは、データのラベル付けと評価に関するドメインの専門知識です。技術的な実装は ECOSIRE によって処理されます。
次のステップ
OpenClaw スキルを微調整することは、ドメイン固有のタスクで最高の精度を実現するための近道ですが、永続的な価値を提供するには、慎重なデータの準備、技術的な実行、継続的なメンテナンスが必要です。 ECOSIRE のトレーニングおよびコンサルティング チームは、完全な微調整ライフサイクルを管理するため、お客様のチームは、彼らだけが提供できる専門知識に集中できます。
OpenClaw トレーニングおよびコンサルティング サービスを探索 して、スキルの精度要件について話し合い、特定のユースケースに合わせた微調整ロードマップを設計します。
執筆者
ECOSIRE Research and Development Team
ECOSIREでエンタープライズグレードのデジタル製品を開発。Odoo統合、eコマース自動化、AI搭載ビジネスソリューションに関するインサイトを共有しています。
関連記事
Case Study: AI Customer Support with OpenClaw Agents
How a SaaS company used OpenClaw AI agents to handle 84% of support tickets autonomously, cutting support costs by 61% while improving CSAT scores.
Calendar and Booking Optimization in GoHighLevel
Optimize your GoHighLevel calendar and booking system to reduce no-shows, fill your schedule efficiently, and automate appointment reminders for higher show rates and revenue.
Landing Page Optimization in GoHighLevel: A/B Testing and Conversion
Master landing page optimization in GoHighLevel. Learn A/B testing setup, conversion rate optimization techniques, and proven funnel design patterns that increase lead capture.