Entrenamiento y ajuste de habilidades de OpenClaw
OpenClaw Skills implementado con modelos básicos generales funciona bien para tareas comerciales estándar: resumen de documentos, extracción de datos estructurados y coordinación del flujo de trabajo. Pero las tareas de dominios específicos (codificación médica, análisis de cláusulas legales, clasificación técnica especializada, evaluación de riesgos específicos de la industria) requieren modelos e indicaciones ajustados al dominio específico para lograr precisión en la calidad de la producción.
Esta guía cubre el flujo de trabajo completo para entrenar y perfeccionar las habilidades de OpenClaw: desde identificar cuándo es necesario un ajuste fino, hasta la preparación de datos, la ejecución del ajuste, la evaluación y la iteración continua.
Conclusiones clave
- El ajuste fino mejora la precisión entre un 15 y un 40 % en tareas específicas de dominio en comparación con los modelos básicos generales
- La ingeniería rápida y el aprendizaje de pocas oportunidades deben agotarse antes de invertir en ajustes
- El ajuste preciso requiere entre 500 y 5000 ejemplos de capacitación de alta calidad para la mayoría de las tareas comerciales
- La calidad de los datos importa más que la cantidad: 500 ejemplos excelentes superan a 5000 mediocres
- Se requiere una evaluación frente a un conjunto de pruebas retenido antes de implementar modelos ajustados en producción.
- Los modelos ajustados requieren reentrenamiento cuando las reglas de negocio cambian o se detecta una desviación del modelo.
- Los métodos PEFT (ajuste fino eficiente en parámetros) como LoRA hacen que el ajuste fino sea accesible sin una computación masiva
- Los ciclos de iteración de 4 a 8 semanas mantienen el rendimiento del modelo en mejora continua a lo largo del tiempo.
Cuándo es (y no es) necesario un ajuste fino
El ajuste no es el primer recurso para mejorar la precisión de los agentes; es el último recurso una vez que se han agotado los enfoques más simples. La inversión se justifica en circunstancias específicas.
Comience aquí: ingeniería de avisos. Antes de cualquier inversión en capacitación, optimice el aviso. La diferencia entre una indicación mediocre y una excelente para la misma tarea suele ser una mejora de la precisión del 20-30%. Técnicas: descripción clara de la tarea, especificación explícita del formato de salida, instrucciones en cadena de pensamiento, uno o dos ejemplos en el mensaje (pocas tomas). Muchos equipos invierten en ajustes cuando una mejor ingeniería rápida habría resuelto el problema.
Luego: RAG (Generación Aumentada de Recuperación). Para tareas que requieren acceso a conocimientos específicos (detalles del catálogo de productos, normas regulatorias, información específica de la empresa), proporcionar el conocimiento relevante en el contexto suele ser más efectivo que ajustar el modelo para "conocer" la información. RAG es más fácil de mantener: actualice la base de conocimientos, no el modelo, cuando cambie la información.
Luego: algunos ejemplos en el mensaje. Agregar de 3 a 10 ejemplos de entrada/salida de alta calidad al mensaje (aprendizaje en contexto) mejora significativamente el rendimiento en tareas estructuradas. Esta es la forma más rápida de demostrar el formato de salida, el nivel de detalle y las expectativas de estilo.
El ajuste se justifica cuando:
- La tarea requiere conocimientos internalizados que no encajan en el contexto (extensos libros de reglas regulatorias, grandes jerarquías de clasificación de productos)
- El formato de salida es muy específico y los ejemplos en contexto no han logrado un cumplimiento consistente.
- La tarea utiliza terminología especializada que los modelos generales no manejan correctamente.
- Las restricciones de latencia prohíben ventanas de contexto grandes (los modelos ajustados son más rápidos con una precisión equivalente)
- La precisión se mantiene por debajo del umbral después de agotar los enfoques rápidos de ingeniería y RAG.
Comprender la arquitectura de habilidades de OpenClaw
Antes de profundizar en el ajuste, comprender cómo funcionan las habilidades da forma al enfoque de capacitación.
Una habilidad es una capacidad de agente configurada con cuatro componentes:
Mensaje del sistema: Instrucciones que definen la función, la tarea, el formato de salida y las restricciones de la habilidad. Esta es la palanca principal para la mejora sin ajustes.
Esquema de entrada: Define la entrada estructurada que acepta la habilidad: qué campos de datos espera, sus tipos y cuáles son obligatorios.
Configuración del modelo: El modelo básico y los parámetros de inferencia (temperatura, tokens máximos, top-p) utilizados para esta habilidad. Diferentes tareas se benefician de diferentes configuraciones.
Esquema de salida: Define el formato de salida estructurado. Las habilidades con esquemas de salida sólidos producen resultados más consistentes y analizables que las habilidades con salidas de formato libre.
El ajuste se centra en el componente del modelo, adaptando los pesos del modelo para que funcione mejor en la tarea y el dominio de su habilidad específica. La optimización de avisos se dirige al aviso del sistema. Ambos son complementarios.
Enfoques de ajuste
Ajuste completo: Todos los parámetros del modelo se actualizan durante el entrenamiento. Produce las mayores ganancias de precisión pero requiere una computación significativa y es costosa. Práctico solo para organizaciones con recursos de ingeniería de aprendizaje automático y grandes conjuntos de datos de capacitación (más de 10 000 ejemplos).
PEFT (ajuste preciso de parámetros eficientes): Solo se actualiza un pequeño subconjunto de parámetros, lo que reduce drásticamente los requisitos informáticos. El método PEFT más común es LoRA (adaptación de bajo rango), que logra resultados comparables al ajuste completo utilizando entre 10 y 100 veces menos computación y memoria.
El ajuste de LoRA es el enfoque recomendado para la mayoría de las necesidades de ajuste de habilidades de OpenClaw porque:
- Viable en instancias de GPU en la nube sin infraestructura de aprendizaje automático especializada
- Los conjuntos de datos de entrenamiento de 500 a 5000 ejemplos son suficientes
- El entrenamiento se completa en horas, no en días.
- Se pueden mantener múltiples adaptadores LoRA simultáneamente, uno por habilidad
- Los adaptadores LoRA se pueden intercambiar sin recargar el modelo base
Ajuste rápido: Un enfoque más suave en el que solo se entrena una pequeña cantidad de tokens de "aviso suave". Requiere menos uso de cómputo que LoRA, pero generalmente produce ganancias de precisión menores. Apropiado para calibración menor de estilo y formato.
RLHF (Aprendizaje reforzado a partir de la retroalimentación humana): Implica entrenar un modelo de recompensa en las calificaciones de preferencias humanas y luego usarlo para guiar el ajuste del modelo. Produce los mejores resultados para la mejora de la calidad subjetiva (estilo de escritura, idoneidad, utilidad), pero requiere un esfuerzo humano significativo en el etiquetado y experiencia en aprendizaje automático.
Preparación de datos
La calidad de los datos es el determinante más importante del éxito del ajuste. El modelo aprende a replicar lo que hay en los datos de entrenamiento: si los datos de entrenamiento son inconsistentes, incorrectos o de baja calidad, el modelo ajustado también lo será.
Estrategias de recopilación de datos
Muestreo de tráfico de producción: Si la habilidad ya está implementada (posiblemente con menor precisión), muestree las entradas de producción y haga que los expertos en el dominio anoten la salida correcta para cada una. Esto produce datos de capacitación máximamente representativos porque refleja la distribución real de los insumos que la habilidad verá en la producción.
Construcción experta: Los expertos en el dominio construyen manualmente pares de entrada/salida que cubren toda la gama de casos que la habilidad debe manejar. Este es de mayor calidad pero más caro y puede pasar por alto casos que aparecen en producción.
Aumento: Variación sistemática de ejemplos existentes para ampliar el conjunto de datos. Para una tarea de clasificación de cláusulas contractuales: varíe el lenguaje de la cláusula, la jurisdicción del contrato y la industria manteniendo etiquetas consistentes.
Generación sintética: Utilice un modelo básico potente para generar ejemplos de entrenamiento a partir de especificaciones. Esto es rápido y escalable, pero produce datos sintéticos que pueden no representar completamente las condiciones de producción. Úselo como complemento de los datos reales, no como reemplazo.
Requisitos de calidad de datos
Corrección: Cada ejemplo de entrenamiento debe ser correcto. Una etiqueta incorrecta entre 100 es peor que ningún ejemplo: el modelo aprende explícitamente el comportamiento incorrecto. Establezca un proceso de revisión en el que cada ejemplo sea verificado por un revisor calificado.
Coherencia: Entradas similares deberían producir resultados similares. Si dos cláusulas contractuales casi idénticas reciben calificaciones de riesgo diferentes, el modelo aprende ruido en lugar de señal. Establezca pautas de etiquetado claras y resuelva los desacuerdos antes de agregarlos al conjunto de capacitación.
Cobertura: El conjunto de capacitación debe cubrir toda la gama de entradas que la habilidad encontrará en producción. Las lagunas en la cobertura producen un modelo que funciona excelentemente en los casos que ha visto y mal en los casos que no ha visto. Analice la distribución de su producción y asegúrese de que los datos de capacitación la reflejen.
Formato: El formato de los datos de capacitación debe coincidir exactamente con lo que la habilidad verá en producción: la misma plantilla de solicitud, la misma estructura de entrada, el mismo formato de salida. Las discrepancias de formato entre el entrenamiento y la inferencia son una fuente común de resultados de ajuste deficientes.
Pautas para el tamaño del conjunto de datos
| Complejidad de la tarea | Ejemplos de formación mínima | Recomendado |
|---|---|---|
| Clasificación simple (5-10 categorías) | 200 | 1000+ |
| Clasificación multiclase (20-50 categorías) | 500 | 2000+ |
| Extracción estructurada | 300 | 1.500+ |
| Clasificación de secuencia (a nivel de documento) | 500 | 2000+ |
| Razonamiento complejo/puntuación | 1.000 | 5000+ |
| Generación abierta | 1.000 | 5000+ |
Estos son mínimos para obtener resultados aceptables. Más datos mejoran constantemente el rendimiento hasta el punto de que los rendimientos son decrecientes.
División de entrenamiento/validación/prueba
Divida su conjunto de datos etiquetados en tres particiones:
- Conjunto de entrenamiento (70-80%): Se utiliza para actualizar los pesos del modelo durante el ajuste fino
- Conjunto de validación (10-15%): Se utiliza para monitorear el progreso del entrenamiento y evitar el sobreajuste
- Conjunto de prueba (10-15%): Se mantuvo completamente hasta la evaluación final; nunca se usó durante el entrenamiento
El conjunto de pruebas proporciona una estimación imparcial de cómo funcionará el modelo ajustado en los datos de producción. Nunca utilice el rendimiento del conjunto de pruebas para tomar decisiones de capacitación, ya que eso crea fugas de datos y estimaciones de precisión infladas.
Ejecución de ajuste fino
Configuración del entorno
El ajuste fino de los adaptadores LoRA para tareas de habilidad típicas requiere:
- Instancia de GPU: A10G (24 GB de VRAM) o equivalente para modelos de parámetros 7B-13B; A100 (80 GB) para modelos más grandes
- Proveedor de nube: instancias de AWS SageMaker, Google Vertex AI, Azure ML o Lambda Cloud GPU
- Marco: Hugging Face Transformers + biblioteca PEFT (estándar para ajuste fino de LoRA)
- Monitoreo: Weights & Biases o MLflow para seguimiento de carreras de entrenamiento
ECOSIRE proporciona un entorno de ajuste preconfigurado como parte del servicio de consultoría de capacitación; no es necesario configurar la infraestructura de ML de forma independiente.
Configuración de hiperparámetros
Hiperparámetros clave para el ajuste de LoRA:
Rango LoRA (r): Controla el número de parámetros en el adaptador LoRA. Rango más alto = más parámetros = mejor capacidad pero mayor riesgo de sobreajuste. Comience con r=16, experimente con r=8 y r=32.
LoRA alfa: Factor de escala para actualizaciones de LoRA. Normalmente se establece en 2 veces el valor de clasificación (alfa=32 si r=16).
Tasa de aprendizaje: Demasiado alto y el modelo diverge; demasiado bajo y el entrenamiento es lento. Para la mayoría de los ajustes de habilidades, 2e-4 a 5e-4 es un rango inicial razonable.
Épocas: Número de pasadas por los datos de entrenamiento. Supervise la pérdida de validación para determinar el recuento de época óptimo; deténgase cuando la pérdida de validación deje de mejorar (detención anticipada).
Tamaño de lote: Los lotes más grandes se entrenan más rápido pero pueden reducir la precisión. Equilibre el tamaño del lote con la memoria GPU disponible.
Monitoreo de entrenamiento
Durante el entrenamiento, controle:
- Pérdida de entrenamiento: Debería disminuir de manera constante. Las mesetas o picos indican problemas.
- Pérdida de validación: Debe disminuir en paralelo con la pérdida de entrenamiento. La divergencia (la pérdida de entrenamiento disminuye mientras que la pérdida de validación aumenta) indica sobreajuste: reduzca el tiempo de entrenamiento o regularícelo.
- Salidas de muestra: Evalúe periódicamente el modelo con entradas de muestra durante el entrenamiento para verificar que esté aprendiendo el comportamiento correcto.
Pruebas de evaluación y aceptación
El ajuste fino produce un modelo. Si ese modelo es mejor que la línea base requiere una evaluación sistemática contra el conjunto de pruebas disponibles.
Métricas estándar por tipo de tarea:
- Clasificación: Precisión, puntuación F1 por clase, matriz de confusión
- Extracción: Precisión, recuperación, F1 para cada campo extraído
- Puntuación/calificación: error absoluto medio, correlación con calificaciones humanas
- Generación: evaluación de rúbricas específicas de tareas (use LLM como juez para escalar)
Umbrales de aceptación: Establezca umbrales mínimos de precisión antes de que comience la capacitación. El modelo ajustado debe superar estos umbrales para poder implementarse. Umbrales comunes:
- Reemplazar el modelo general si la precisión ajustada excede la línea base en >5 puntos porcentuales
- Implementar si la precisión ajustada excede el mínimo definido (por ejemplo, 92 % en el conjunto de prueba)
Análisis de errores: No se limite a observar la precisión agregada: analice los errores. ¿Qué tipos de entrada el modelo siempre falla? ¿El patrón de error sugiere un problema de calidad de los datos, una brecha de cobertura o una limitación fundamental del modelo?
Pruebas de regresión: El modelo ajustado no debe retroceder en tareas que el modelo base maneja bien. Ejecute la evaluación del conjunto de datos dorado para confirmar.
Implementación e iteración
Implementación: El adaptador LoRA optimizado se carga junto con el modelo base en la infraestructura de servicio OpenClaw. Requests for the fine-tuned Skill are routed to the adapter-augmented model. Pueden coexistir varios adaptadores para diferentes habilidades en el mismo entorno de servicio.
Monitoreo posterior a la implementación: Aplique el mismo enfoque de monitoreo descrito en la guía de prueba y monitoreo. El modelo ajustado debe reevaluarse con una cadencia regular para detectar la deriva.
Desencadenantes de iteración:
- La precisión cae por debajo del umbral en el seguimiento de la producción.
- Las reglas comerciales cambian y requieren que el modelo aprenda un nuevo comportamiento.
- Aparecen nuevos tipos de insumos en producción que no fueron cubiertos en la capacitación.
- Se completa el ajuste y los resultados sugieren brechas específicas que abordar
Proceso de iteración:
- Recopilar nuevos ejemplos de capacitación a partir de insumos de producción que cubran la brecha identificada.
- Agregar al conjunto de datos de entrenamiento existente
- Ajuste el modelo (a partir de los pesos ajustados actuales, no del modelo base)
- Evalúe con el conjunto de pruebas ampliado.
- Implementar si se confirma la mejora
Las habilidades maduras pasan por entre 4 y 8 ciclos de iteración por año, cada uno de los cuales mejora progresivamente el rendimiento.
Preguntas frecuentes
¿Qué tan caro es ajustar un modelo para una habilidad OpenClaw?
El ajuste de LoRA para una tarea de habilidad típica en un modelo de parámetros 7B-13B cuesta entre 50 y 300 dólares en cálculo de GPU en la nube por ejecución de entrenamiento, según el tamaño del conjunto de datos y el tamaño del modelo. La preparación de datos (etiquetado) es el costo mayor: un conjunto de datos bien etiquetado de 1000 ejemplos de expertos en el dominio normalmente cuesta entre $ 2000 y $ 8000 en tiempo de experto. El servicio de consultoría en formación de ECOSIRE abarca tanto la ejecución técnica como la metodología de preparación de datos.
¿Podemos realizar ajustes en los modelos de OpenAI o Anthropic?
OpenAI admite ajustes para GPT-4o mini y GPT-3.5 Turbo a través de su API de ajuste. Anthropic actualmente no ofrece ajustes públicos para los modelos Claude. Google ofrece ajustes para los modelos Gemini a través de Vertex AI. Para tareas en las que el ajuste es esencial y desea utilizar modelos de frontera, la API de ajuste de OpenAI es el camino más accesible. Para tareas en las que el ajuste es esencial y la privacidad de los datos requiere procesamiento local, los modelos de código abierto (Llama, Mistral, Qwen) con ajuste LoRA son apropiados.
¿Cómo mantenemos los modelos ajustados a medida que cambia el modelo base?
Cuando se actualiza el modelo base (nueva versión de Llama, GPT-4o, etc.), los adaptadores LoRA entrenados en la versión anterior generalmente deben volver a entrenarse en la nueva versión. Esta es una consideración de mantenimiento importante: planifique ciclos de reentrenamiento cuando se lancen las principales versiones del modelo. El contrato de mantenimiento de ECOSIRE incluye la reentrenamiento del modelo como un servicio cubierto para clientes con habilidades perfeccionadas.
¿Qué son las indicaciones de pocos disparos y cuándo sustituyen al ajuste fino?
Las indicaciones de pocas tomas proporcionan ejemplos de pares de entrada/salida directamente en la solicitud, mostrando al modelo cómo se ven las respuestas correctas sin modificar los pesos del modelo. Funciona bien cuando tienes entre 5 y 10 ejemplos de alta calidad, el formato de salida es consistente y la tarea está dentro de la capacidad general del modelo. Se estropea cuando necesita docenas de ejemplos (límites de ventana de contexto), cuando el rendimiento debe ser consistente en un gran volumen (los ejemplos en contexto agregan latencia y costo) o cuando la tarea requiere conocimientos especializados que el modelo no tiene.
¿Cómo sabemos si el rendimiento deficiente es un problema rápido o un problema de modelo?
Prueba de ablación sistemática: mantener constante una variable mientras se cambia la otra. Pruebe múltiples formulaciones rápidas con el modelo base. Si el mejor mensaje aún funciona por debajo del umbral, el problema es la capacidad subyacente del modelo: es necesario realizar un ajuste fino o cambiar a un modelo base más capaz. Si las variantes rápidas producen resultados significativamente diferentes, el problema es la calidad rápida: invierta en ingeniería rápida antes de realizar ajustes.
¿Necesitamos ingenieros de ML en nuestro equipo para implementar ajustes?
No si trabajas con ECOSIRE. El ajuste es una disciplina especializada que requiere experiencia en ingeniería de aprendizaje automático para su configuración, ejecución y evaluación. El servicio de consultoría de formación de ECOSIRE proporciona esta experiencia sin necesidad de contratar ingenieros de ML. Lo que su equipo debe proporcionar es experiencia en el dominio para el etiquetado y la evaluación de datos; la implementación técnica está a cargo de ECOSIRE.
Próximos pasos
El ajuste fino de OpenClaw Skills es el camino hacia la mayor precisión en tareas específicas de un dominio, pero requiere una cuidadosa preparación de datos, ejecución técnica y mantenimiento continuo para ofrecer un valor duradero. El equipo de capacitación y consultoría de ECOSIRE gestiona el ciclo de vida completo de ajuste para que su equipo se concentre en la experiencia en el dominio que solo ellos pueden brindar.
Explore los servicios de consultoría y capacitación de OpenClaw para analizar los requisitos de precisión de sus habilidades y diseñar una hoja de ruta de ajuste para sus casos de uso específicos.
Escrito por
ECOSIRE Research and Development Team
Construyendo productos digitales de nivel empresarial en ECOSIRE. Compartiendo perspectivas sobre integraciones Odoo, automatización de eCommerce y soluciones empresariales impulsadas por IA.
Artículos relacionados
Case Study: AI Customer Support with OpenClaw Agents
How a SaaS company used OpenClaw AI agents to handle 84% of support tickets autonomously, cutting support costs by 61% while improving CSAT scores.
Calendar and Booking Optimization in GoHighLevel
Optimize your GoHighLevel calendar and booking system to reduce no-shows, fill your schedule efficiently, and automate appointment reminders for higher show rates and revenue.
Landing Page Optimization in GoHighLevel: A/B Testing and Conversion
Master landing page optimization in GoHighLevel. Learn A/B testing setup, conversion rate optimization techniques, and proven funnel design patterns that increase lead capture.