Training and Fine-Tuning OpenClaw Skills

A technical guide to training and fine-tuning OpenClaw Skills for domain-specific accuracy. Covers data preparation, fine-tuning approaches, evaluation, and iteration.

E
ECOSIRE Research and Development Team
|19 mars 202615 min de lecture3.4k Mots|

Formation et mise au point des compétences OpenClaw

Les compétences OpenClaw déployées avec des modèles de base généraux fonctionnent bien pour les tâches commerciales standard : synthèse de documents, extraction de données structurées, coordination des flux de travail. Mais les tâches spécifiques à un domaine (codage médical, analyse de clauses juridiques, classification technique spécialisée, évaluation des risques spécifiques à un secteur) nécessitent des modèles et des invites adaptés au domaine spécifique pour obtenir une précision de qualité de production.

Ce guide couvre le flux de travail complet pour la formation et le réglage fin des compétences OpenClaw : depuis l'identification du moment où un réglage fin est nécessaire, en passant par la préparation des données, le réglage fin de l'exécution, l'évaluation et l'itération continue.

Points clés à retenir

  • Le réglage fin améliore la précision de 15 à 40 % sur les tâches spécifiques à un domaine par rapport aux modèles de base généraux
  • L'ingénierie rapide et l'apprentissage en quelques étapes doivent être épuisés avant d'investir dans le réglage fin
  • La mise au point nécessite 500 à 5 000 exemples de formation de haute qualité pour la plupart des tâches commerciales
  • La qualité des données compte plus que la quantité : 500 excellents exemples surpassent 5 000 médiocres
  • Une évaluation par rapport à un ensemble de tests retenu est requise avant de déployer des modèles affinés en production
  • Les modèles affinés nécessitent un recyclage lorsque les règles métier changent ou qu'une dérive du modèle est détectée
  • Les méthodes PEFT (Parameter-Efficient Fine-Tuning) comme LoRA rendent le réglage fin accessible sans calcul massif
  • Des cycles d'itération de 4 à 8 semaines maintiennent une amélioration continue des performances du modèle au fil du temps

Quand un réglage fin est (et n'est pas) nécessaire

Le réglage fin n'est pas le premier recours pour améliorer la précision des agents : c'est le dernier recours une fois que les approches plus simples ont été épuisées. L'investissement est justifié dans des circonstances spécifiques.

Commencez ici : ingénierie de l'invite. Avant tout investissement dans la formation, optimisez l'invite. La différence entre une invite médiocre et excellente pour la même tâche est souvent une amélioration de la précision de 20 à 30 %. Techniques : description claire de la tâche, spécification explicite du format de sortie, instructions de réflexion, un ou deux exemples dans l'invite (quelques plans). De nombreuses équipes investissent dans des réglages précis alors qu’une meilleure ingénierie rapide aurait résolu le problème.

Puis : RAG (Retrieval Augmented Generation). Pour les tâches nécessitant l'accès à des connaissances spécifiques (détails du catalogue produits, règles réglementaires, informations spécifiques à l'entreprise), fournir les connaissances pertinentes dans le contexte est souvent plus efficace que d'affiner le modèle pour « connaître » l'information. RAG est plus maintenable : mettez à jour la base de connaissances, et non le modèle, lorsque les informations changent.

Ensuite : quelques exemples dans l'invite. L'ajout de 3 à 10 exemples d'entrée/sortie de haute qualité à l'invite (apprentissage en contexte) améliore considérablement les performances sur les tâches structurées. Il s’agit du moyen le plus rapide de démontrer le format de sortie, le niveau de détail et les attentes en matière de style.

Un réglage fin est justifié lorsque :

  • La tâche nécessite des connaissances internalisées qui ne rentrent pas dans le contexte (règles réglementaires détaillées, grandes hiérarchies de classification des produits)
  • Le format de sortie est très spécifique et les exemples contextuels n'ont pas atteint une conformité cohérente
  • La tâche utilise une terminologie spécialisée que les modèles généraux ne gèrent pas correctement
  • Les contraintes de latence interdisent les grandes fenêtres contextuelles (les modèles affinés sont plus rapides avec une précision équivalente)
  • La précision reste inférieure au seuil après avoir épuisé les approches d'ingénierie rapide et RAG

Comprendre l'architecture des compétences OpenClaw

Avant de plonger dans la mise au point, comprendre le fonctionnement des compétences façonne l’approche de formation.

Une compétence est une capacité d'agent configurée avec quatre composants :

Invite système : Instructions qui définissent le rôle, la tâche, le format de sortie et les contraintes de la compétence. Il s’agit du principal levier d’amélioration non affinée.

Schéma d'entrée : définit l'entrée structurée que la compétence accepte : quels champs de données elle attend, leurs types et lesquels sont requis.

Configuration du modèle : Le modèle de base et les paramètres d'inférence (température, nombre maximal de jetons, top-p) utilisés pour cette compétence. Différentes tâches bénéficient de différents paramètres.

Schéma de sortie : définit le format de sortie structuré. Les compétences dotées de schémas de sortie puissants produisent des résultats plus cohérents et analysables que les compétences dotées de sorties de forme libre.

Le réglage fin cible le composant du modèle – en adaptant les pondérations du modèle pour mieux fonctionner sur la tâche et le domaine spécifiques de votre compétence. L'optimisation des invites cible l'invite du système. Les deux sont complémentaires.


Approches de réglage fin

Réglage complet : Tous les paramètres du modèle sont mis à jour pendant la formation. Produit les gains de précision les plus importants, mais nécessite des calculs importants et coûte cher. Pratique uniquement pour les organisations disposant de ressources d’ingénierie ML et de grands ensembles de données de formation (plus de 10 000 exemples).

PEFT (Parameter-Efficient Fine-Tuning) : seul un petit sous-ensemble de paramètres est mis à jour, ce qui réduit considérablement les besoins de calcul. La méthode PEFT la plus courante est LoRA (Low-Rank Adaptation), qui permet d'obtenir des résultats comparables à un réglage fin complet en utilisant 10 à 100 fois moins de calcul et de mémoire.

Le réglage fin de LoRA est l'approche recommandée pour la plupart des besoins de réglage fin des compétences OpenClaw car :

  • Réalisable sur les instances GPU cloud sans infrastructure ML spécialisée
  • Des ensembles de données de formation de 500 à 5 000 exemples sont suffisants
  • Les formations se terminent en heures et non en jours
  • Plusieurs adaptateurs LoRA peuvent être maintenus simultanément, un par compétence
  • Les adaptateurs LoRA peuvent être échangés sans recharger le modèle de base

Réglage des invites : Une approche plus douce dans laquelle seul un petit nombre de jetons « invites logicielles » sont entraînés. Moins gourmand en calcul que LoRA mais produit généralement des gains de précision plus faibles. Convient pour l'étalonnage mineur de style et de format.

RLHF (Reinforcement Learning from Human Feedback) : implique la formation d'un modèle de récompense sur les évaluations des préférences humaines, puis son utilisation pour guider le réglage fin du modèle. Produit les meilleurs résultats pour l’amélioration subjective de la qualité (style d’écriture, pertinence, utilité) mais nécessite un effort d’étiquetage humain important et une expertise en ML.


Préparation des données

La qualité des données est le déterminant le plus important du succès du réglage fin. Le modèle apprend à reproduire le contenu des données d'entraînement : si les données d'entraînement sont incohérentes, incorrectes ou de mauvaise qualité, le modèle affiné le sera également.

Stratégies de collecte de données

Échantillonnage du trafic de production : Si la compétence est déjà déployée (éventuellement avec une précision moindre), échantillonnez les entrées de production et demandez à des experts du domaine d'annoter la sortie correcte pour chacune. Cela produit des données de formation représentatives au maximum car elles reflètent la répartition réelle des intrants que la compétence verra dans la production.

Construction experte : Les experts du domaine construisent manuellement des paires d'entrées/sorties couvrant l'ensemble des cas que la compétence doit gérer. C'est une qualité supérieure mais plus chère et peut manquer des cas qui apparaissent en production.

Augmentation : Variation systématique des exemples existants pour élargir l'ensemble de données. Pour une tâche de classification de clause contractuelle : variez le langage de la clause, la juridiction du contrat et le secteur d'activité tout en conservant des étiquettes cohérentes.

Génération synthétique : Utilisez un modèle de base puissant pour générer des exemples de formation à partir de spécifications. Cette méthode est rapide et évolutive, mais produit des données synthétiques qui peuvent ne pas représenter pleinement les conditions de production. À utiliser en complément des données réelles, et non en remplacement.

Exigences en matière de qualité des données

Exactité : Chaque exemple de formation doit être correct. Une mauvaise étiquette sur 100 est pire que pas d’exemple : le modèle apprend explicitement le mauvais comportement. Établissez un processus d'examen dans lequel chaque exemple est vérifié par un évaluateur qualifié.

Cohérence : Des entrées similaires devraient produire des résultats similaires. Si deux clauses contractuelles presque identiques reçoivent des évaluations de risque différentes, le modèle apprend le bruit plutôt que le signal. Établissez des directives d'étiquetage claires et résolvez les désaccords avant de les ajouter à l'ensemble de formation.

Couverture : L'ensemble de formation doit couvrir la gamme complète des intrants que la compétence rencontrera en production. Les lacunes dans la couverture produisent un modèle qui fonctionne parfaitement dans les cas qu'il a vus et mal dans les cas qu'il n'a pas vus. Analysez la répartition de votre production et assurez-vous que les données de formation la reflètent.

Format : Le format des données de formation doit correspondre exactement à ce que la compétence verra en production : même modèle d'invite, même structure d'entrée, même format de sortie. Les inadéquations de format entre la formation et l'inférence sont une source courante de mauvais résultats de réglage fin.

Directives relatives à la taille des ensembles de données

Complexité des tâchesExemples de formation minimaleRecommandé
Classification simple (5-10 catégories)2001 000+
Classification multi-classes (20-50 catégories)5002 000+
Extraction structurée3001 500+
Classification des séquences (au niveau du document)5002 000+
Raisonnement complexe / notation1 0005 000+
Génération ouverte1 0005 000+

Ce sont des minimums pour des résultats acceptables. Plus de données améliorent constamment les performances, jusqu'à un point de rendement décroissant.

Répartition Train/Validation/Test

Divisez votre ensemble de données étiqueté en trois partitions :

  • Ensemble de formation (70-80 %) : Utilisé pour mettre à jour les poids du modèle lors du réglage fin
  • Ensemble de validation (10-15 %) : Utilisé pour surveiller les progrès de l'entraînement et éviter le surapprentissage
  • Ensemble de test (10-15 %) : Tenu complètement jusqu'à l'évaluation finale - jamais utilisé pendant la formation

L'ensemble de tests fournit une estimation impartiale de la façon dont le modèle affiné fonctionnera sur les données de production. N'utilisez jamais les performances des ensembles de tests pour prendre des décisions en matière de formation, car cela crée des fuites de données et des estimations de précision gonflées.


Exécution de réglage fin

Configuration de l'environnement

Le réglage fin des adaptateurs LoRA pour les tâches de compétences typiques nécessite :

  • Instance GPU : A10G (24 Go de VRAM) ou équivalent pour les modèles de paramètres 7B-13B ; A100 (80 Go) pour les modèles plus grands
  • Fournisseur cloud : instances GPU AWS SageMaker, Google Vertex AI, Azure ML ou Lambda Cloud
  • Framework : Hugging Face Transformers + bibliothèque PEFT (standard pour le réglage fin de LoRA)
  • Surveillance : poids et biais ou MLflow pour le suivi des courses d'entraînement

ECOSIRE fournit un environnement de réglage fin préconfiguré dans le cadre du service de conseil en formation : vous n'avez pas besoin de configurer l'infrastructure ML de manière indépendante.

Configuration des hyperparamètres

Hyperparamètres clés pour le réglage fin de LoRA :

Rang LoRA (r) : Contrôle le nombre de paramètres dans l'adaptateur LoRA. Un rang plus élevé = plus de paramètres = une meilleure capacité mais un risque de surajustement plus élevé. Commencez avec r=16, expérimentez avec r=8 et r=32.

LoRA alpha : Facteur d'échelle pour les mises à jour LoRA. Généralement défini sur 2x la valeur du classement (alpha=32 si r=16).

Taux d'apprentissage : Trop élevé et le modèle diverge ; trop faible et l'entraînement est lent. Pour la plupart des réglages précis des compétences, 2e-4 à 5e-4 est une plage de départ raisonnable.

Époques : Nombre de passages dans les données d'entraînement. Surveillez la perte de validation pour déterminer le nombre d’époques optimal – arrêtez-vous lorsque la perte de validation cesse de s’améliorer (arrêt anticipé).

Taille du lot : Des lots plus importants s'entraînent plus rapidement mais peuvent réduire la précision. Équilibrez la taille du lot par rapport à la mémoire GPU disponible.

Suivi des formations

Pendant la formation, surveillez :

  • Perte d'entraînement : Devrait diminuer régulièrement. Les plateaux ou les pointes indiquent des problèmes.
  • Perte de validation : Devrait diminuer parallèlement à la perte d'entraînement. La divergence (la perte d'entraînement diminue tandis que la perte de validation augmente) indique un surapprentissage - réduisez le temps d'entraînement ou régularisez.
  • Exemples de résultats : Évaluez périodiquement le modèle sur des exemples d'entrées tout au long de la formation pour vérifier qu'il apprend le bon comportement.

Tests d'évaluation et d'acceptation

Le réglage fin produit un modèle. La question de savoir si ce modèle est meilleur que la référence nécessite une évaluation systématique par rapport à l'ensemble de tests retenu.

Mesures standard par type de tâche :

  • Classification : Précision, score F1 par classe, matrice de confusion
  • Extraction : Précision, rappel, F1 pour chaque champ extrait
  • Scoring/notation : erreur absolue moyenne, corrélation avec les évaluations humaines
  • Génération : évaluation de rubriques spécifiques à une tâche (utilisez LLM-as-juge pour l'échelle)

Seuils d'acceptation : Établissez des seuils de précision minimaux avant le début de la formation. Le modèle affiné doit dépasser ces seuils pour être déployé. Seuils communs :

  • Remplacer le modèle général si la précision affinée dépasse la ligne de base de > 5 points de pourcentage
  • Déployer si la précision affinée dépasse le minimum défini (par exemple, 92 % sur l'ensemble de test)

Analyse des erreurs : Ne vous contentez pas d'examiner la précision globale : analysez les erreurs. Quels types d’entrées le modèle se trompe-t-il systématiquement ? Le modèle d’erreur suggère-t-il un problème de qualité des données, un écart de couverture ou une limitation fondamentale du modèle ?

Tests de régression : Le modèle affiné ne doit pas régresser sur les tâches que le modèle de base gère bien. Exécutez l’évaluation de l’ensemble de données Golden pour confirmer.


Déploiement et itération

Déploiement : L'adaptateur LoRA affiné est chargé avec le modèle de base dans l'infrastructure de service OpenClaw. Les demandes pour la compétence affinée sont acheminées vers le modèle augmenté par l'adaptateur. Plusieurs adaptateurs pour différentes compétences peuvent coexister dans le même environnement de service.

Surveillance post-déploiement : appliquez la même approche de surveillance décrite dans le guide de test et de surveillance. Le modèle affiné doit être réévalué à une cadence régulière pour détecter la dérive.

Déclencheurs d'itération :

  • La précision descend en dessous du seuil de suivi de production
  • Changement des règles métier nécessitant que le modèle apprenne un nouveau comportement
  • De nouveaux types d'intrants apparaissent en production qui n'étaient pas couverts par la formation
  • La mise au point est terminée et les résultats suggèrent des lacunes spécifiques à combler

Processus d'itération :

  1. Recueillir de nouveaux exemples de formation à partir d'intrants de production couvrant l'écart identifié
  2. Ajouter à l'ensemble de données de formation existant
  3. Affinez le modèle (en partant des poids affinés actuels, et non du modèle de base)
  4. Évaluer par rapport à l'ensemble de tests étendu
  5. Déployer si l'amélioration est confirmée

Les compétences matures subissent 4 à 8 cycles d'itération par an, chacun améliorant progressivement les performances.


Questions fréquemment posées

Quel est le coût de la mise au point d'un modèle pour une compétence OpenClaw ?

Le réglage fin de LoRA pour une tâche de compétence typique sur un modèle de paramètres 7B-13B coûte entre 50 et 300 $ en calcul GPU cloud par exécution d'entraînement, en fonction de la taille de l'ensemble de données et de la taille du modèle. La préparation des données (étiquetage) représente le coût le plus élevé : un ensemble de données bien étiqueté de 1 000 exemples provenant d'experts du domaine coûte généralement entre 2 000 et 8 000 $ en temps d'expert. Le service de conseil en formation d'ECOSIRE couvre à la fois la méthodologie d'exécution technique et de préparation des données.

Pouvons-nous affiner les modèles d'OpenAI ou d'Anthropic ?

OpenAI prend en charge le réglage fin de GPT-4o mini et GPT-3.5 Turbo via leur API de réglage fin. Anthropic ne propose actuellement pas de réglage public des modèles Claude. Google propose un réglage fin des modèles Gemini via Vertex AI. Pour les tâches pour lesquelles un réglage fin est essentiel et que vous souhaitez utiliser des modèles frontières, l'API de réglage fin d'OpenAI est la voie la plus accessible. Pour les tâches où un réglage fin est essentiel et où la confidentialité des données nécessite un traitement sur site, les modèles open source (Llama, Mistral, Qwen) avec réglage fin LoRA sont appropriés.

Comment maintenir des modèles affinés à mesure que le modèle de base change ?

Lorsque le modèle de base est mis à jour (nouvelle version de Llama, GPT-4o, etc.), les adaptateurs LoRA formés sur l'ancienne version doivent généralement être recyclés sur la nouvelle version. Il s'agit d'une considération importante en matière de maintenance : prévoyez des cycles de recyclage lorsque les versions majeures du modèle sont publiées. Le contrat de maintenance d'ECOSIRE comprend le recyclage des modèles en tant que service couvert pour les clients possédant des compétences affinées.

Qu'est-ce que l'invite à quelques tirs et quand remplace-t-elle un réglage précis ?

L'invite en quelques étapes fournit des exemples de paires d'entrée/sortie directement dans l'invite, montrant au modèle à quoi ressemblent les réponses correctes sans modifier les pondérations du modèle. Cela fonctionne bien lorsque vous disposez de 5 à 10 exemples de haute qualité, que le format de sortie est cohérent et que la tâche respecte les capacités générales du modèle. Il échoue lorsque vous avez besoin de dizaines d'exemples (limites de la fenêtre contextuelle), lorsque les performances doivent être cohérentes à volume élevé (les exemples contextuels ajoutent de la latence et du coût) ou lorsque la tâche nécessite des connaissances spécialisées que le modèle ne possède pas.

Comment savoir si de mauvaises performances sont un problème d'invite ou un problème de modèle ?

Test d'ablation systématique : maintenir une variable constante tout en modifiant l'autre. Testez plusieurs formulations d'invites avec le modèle de base. Si la meilleure invite fonctionne toujours en dessous du seuil, le problème réside dans la capacité sous-jacente du modèle : un réglage précis ou le passage à un modèle de base plus performant est nécessaire. Si les variantes rapides produisent des résultats sensiblement différents, le problème est la qualité rapide : investissez dans une ingénierie rapide avant d'effectuer des réglages précis.

Avons-nous besoin d'ingénieurs ML dans notre équipe pour mettre en œuvre des réglages précis ?

Pas si vous travaillez avec ECOSIRE. Le réglage fin est une discipline spécialisée qui nécessite une expertise en ingénierie ML pour la configuration, l'exécution et l'évaluation. Le service de conseil en formation d'ECOSIRE fournit cette expertise sans vous obliger à embaucher des ingénieurs ML. Ce que votre équipe doit fournir, c'est une expertise du domaine pour l'étiquetage et l'évaluation des données — la mise en œuvre technique est gérée par ECOSIRE.


Prochaines étapes

Le réglage fin des compétences OpenClaw est la voie vers la plus grande précision sur les tâches spécifiques à un domaine, mais cela nécessite une préparation minutieuse des données, une exécution technique et une maintenance continue pour offrir une valeur durable. L'équipe de formation et de conseil d'ECOSIRE gère le cycle de vie complet de mise au point afin que votre équipe se concentre sur l'expertise du domaine qu'elle seule peut fournir.

Explorez les services de formation et de conseil OpenClaw pour discuter de vos besoins en matière de précision des compétences et concevoir une feuille de route de réglage précis pour vos cas d'utilisation spécifiques.

E

Rédigé par

ECOSIRE Research and Development Team

Création de produits numériques de niveau entreprise chez ECOSIRE. Partage d'analyses sur les intégrations Odoo, l'automatisation e-commerce et les solutions d'entreprise propulsées par l'IA.

Discutez sur WhatsApp