Testing and Monitoring AI Agents in Production

A complete guide to testing and monitoring AI agents in production environments. Covers evaluation frameworks, observability, drift detection, and incident response for OpenClaw deployments.

E
ECOSIRE Research and Development Team
|19 de marzo de 202614 min de lectura3.1k Palabras|

Parte de nuestra serie Performance & Scalability

Leer la guía completa

Pruebas y seguimiento de agentes de IA en producción

La implementación de un agente de IA en producción no es el final de la implementación: es el comienzo de una disciplina operativa que no existe para el software tradicional. Las aplicaciones tradicionales fallan de manera determinista: dada la misma entrada, se obtiene el mismo resultado (incorrecto). Los agentes de IA fallan probabilísticamente: la misma entrada produce una salida correcta el 97% de las veces y una salida sutilmente incorrecta el 3% de las veces, y ese 3% cambia a medida que se actualizan los modelos, cambian las distribuciones de entradas y evolucionan las reglas de negocio.

Esta guía cubre el marco operativo completo para probar agentes de IA antes de su implementación y monitorearlos continuamente en producción, con patrones específicos para implementaciones de OpenClaw.

Conclusiones clave

  • Las pruebas de agentes de IA requieren pruebas funcionales (resultado correcto) y pruebas de comportamiento (razonamiento consistente)
  • Las pruebas de regresión son fundamentales cuando se actualizan los modelos: se asume que el comportamiento cambiará hasta que se demuestre lo contrario.
  • El monitoreo de la producción debe realizar un seguimiento de las métricas de precisión, no solo de la disponibilidad y la latencia.
  • El uso de tokens y el monitoreo de costos evitan picos de facturación inesperados
  • La detección de anomalías en los resultados de los agentes detecta la degradación de la precisión antes de que afecte los resultados comerciales.
  • El muestreo de revisión humana proporciona datos reales para calibrar el monitoreo automatizado
  • Los manuales de respuesta a incidentes para agentes de IA difieren fundamentalmente de los incidentes de software tradicionales.
  • El marco de pruebas A/B permite una evaluación segura de cambios rápidos y actualizaciones de modelos.

Por qué las pruebas de agentes de IA son diferentes

Probar agentes de IA requiere una mentalidad fundamentalmente diferente a la de probar software tradicional. En las pruebas de software tradicionales, usted escribe casos de prueba, proporciona entradas y verifica las salidas con los valores esperados. Si la prueba pasa consistentemente, el software es correcto.

Los agentes de IA no funcionan de esta manera. Sus resultados son probabilísticos: pueden ser correctos, ligeramente incorrectos o completamente incorrectos, y la distribución de probabilidad de los resultados depende de la versión del modelo, el contexto proporcionado y la redacción específica de los datos. Tres desafíos hacen que las pruebas tradicionales sean inadecuadas:

No determinismo: La misma ejecución del mensaje dos veces puede producir resultados diferentes. Las pruebas deben evaluar la calidad del resultado dentro de un rango, no una igualdad exacta.

Sensibilidad de la versión del modelo: Cuando su proveedor de LLM lanza una nueva versión del modelo, el comportamiento de su agente puede cambiar de maneras que no son inmediatamente obvias. Un modelo que tuviera una precisión del 94 % en su tarea podría mejorar al 96 % o degradarse al 91 %; necesita mecanismos para detectar esto.

Dependencia del contexto: El comportamiento del agente depende en gran medida del contexto proporcionado (documentos recuperados, historial de conversaciones, instrucciones del sistema). Pequeños cambios en el ensamblaje del contexto pueden afectar significativamente la calidad del resultado.


Marco de pruebas de preproducción

Pruebas unitarias de habilidades

Cada OpenClaw Skill debe tener un conjunto de pruebas que valide su comportamiento con una muestra representativa de entradas. Estas pruebas no son pruebas estándar de afirmación igual: utilizan un marco de evaluación que califica la calidad de los resultados.

Estructura de prueba para una revisión de contrato Habilidad:

class ContractReviewSkillTests:
    def test_identifies_indemnification_clause(self):
        # Provide sample contract containing indemnification clause
        # Assert: clause is identified, page number is correct
        # Assert: risk level is "high" for unlimited indemnification
        # Assert: recommended action is present

    def test_handles_missing_clause(self):
        # Provide contract without limitation of liability clause
        # Assert: missing clause is flagged
        # Assert: recommended action is to add clause

    def test_handles_unusual_clause_language(self):
        # Provide contract with atypical but valid indemnification language
        # Assert: clause is still identified (recall test)
        # Assert: unusual language is flagged for review

Criterios de evaluación para cada prueba:

  • Recordar (¿el agente encontró lo que había allí?)
  • Precisión (¿el agente solo marcó elementos relevantes?)
  • Precisión de la evaluación de riesgos (¿es apropiado el nivel de riesgo?)
  • Integridad de las acciones recomendadas.
  • Cumplimiento del formato de salida (campos obligatorios presentes, estructura correcta)

Pruebas de conjuntos de datos dorados

Mantenga un conjunto de datos de entre 50 y 200 entradas representativas con resultados esperados verificados por humanos. Antes de cada implementación de producción, ejecute el agente con este conjunto de datos y calcule métricas de precisión. Se bloquean las implementaciones con una precisión inferior a su umbral.

Construcción del conjunto de datos dorado:

  1. Recopile 200 entradas reales del tráfico de producción (anonimizadas si es necesario)
  2. Haga que los expertos en el dominio revisen y anoten los resultados correctos para cada uno.
  3. Estratificar el conjunto de datos para cubrir casos extremos, entradas inusuales y patrones de error comunes.
  4. Establecer métricas de precisión de referencia en comparación con el conjunto de datos de referencia.
  5. Trate cualquier regresión por debajo del valor inicial como un obstáculo para el despliegue.

Evaluación automatizada para el conjunto de datos de oro: Contrate o capacite a un LLM como evaluador: una llamada de LLM separada que toma el resultado del agente y el resultado esperado verificado por humanos y produce una puntuación de similitud/corrección. Este es el patrón "LLM como juez". Combinado con la revisión humana de casos límite, escala la evaluación de conjuntos de datos dorados a ejecuciones frecuentes.

Pruebas de integración

Pruebe el comportamiento del agente de un extremo a otro en todo el sistema, incluidas las integraciones:

Escenarios de prueba de integración:

  • El agente lee desde ERP, procesa datos, escribe de nuevo: verifica la integridad de los datos
  • El agente llama a la API externa y maneja las respuestas de éxito y fracaso.
  • El agente se coordina con otro agente en un flujo de trabajo de múltiples agentes
  • El agente maneja con gracia los tiempos de espera, los límites de velocidad y la indisponibilidad de API.
  • El agente produce resultados que activan correctamente los procesos comerciales posteriores.

Prueba de falla simulada:

  • Inyectar fallas de tiempo de espera en llamadas API externas
  • Proporcionar datos mal formados o faltantes
  • Simular la indisponibilidad del proveedor del modelo.
  • Pruebe la degradación elegante cuando el agente no pueda completar la tarea.

Arquitectura de monitoreo de producción

Cuatro pilares del monitoreo de agentes de IA

Pilar 1: Salud operativa (monitoreo de software estándar)

  • Tiempo de actividad y disponibilidad
  • Latencia por ejecución (P50, P95, P99)
  • Tasa de error (fallos del agente, excepciones no controladas, fallos de API)
  • Profundidad y rendimiento de la cola
  • Utilización de recursos (CPU, memoria, concurrencia API)

Pilar 2: Calidad de los resultados (monitoreo específico de IA)

  • Tasa de precisión en resultados muestreados (juzgados por humanos o LLM)
  • Detección de alucinaciones (salidas que contienen información que no está en el contexto proporcionado)
  • Tasa de cumplimiento del formato (resultados que cumplen con la estructura requerida)
  • Distribución de la puntuación de confianza (agentes que repentinamente expresan una menor degradación de la señal de confianza)
  • Tasa de finalización de tareas (el agente produce con éxito un resultado completo versus devuelve un error o una respuesta incompleta)

Pilar 3: Impacto empresarial (seguimiento de resultados)

  • Tasa de éxito de las acciones posteriores (pedidos realizados con éxito, aprobaciones enrutadas correctamente, etc.)
  • Tasa de anulación humana (con qué frecuencia los humanos anulan las decisiones del agente)
  • Satisfacción del cliente para agentes de atención al cliente (CSAT, NPS)
  • Tasa de excepción (las entradas se escalaron a revisión humana)
  • Tiempo del ciclo del proceso (tiempo de finalización de la tarea de un extremo a otro)

Pilar 4: Costo (monitoreo de costos de token y API)

  • Consumo de token por ejecución (entrada + salida)
  • Costo por finalización exitosa de la tarea
  • Uso anómalo de tokens (las ejecuciones consumen significativamente más tokens que la inyección de señal promedio o la contaminación del contexto)
  • Tendencia de costos diaria/semanal versus pronóstico

Implementación de observabilidad

OpenClaw proporciona seguimiento de ejecución integrado. Cada ejecución de agente produce un seguimiento estructurado que incluye:

  • ID de ejecución y marca de tiempo
  • Datos de entrada (con redacción de PII aplicada)
  • Contexto recuperado (fragmentos de RAG, turnos de conversación anteriores)
  • Mensaje completo enviado a LLM
  • Respuesta del LLM
  • Pasos de posprocesamiento
  • Salida final
  • Recuentos de tokens y costo.
  • Tiempo total de ejecución
  • Cualquier excepción o escalada

Estos datos de seguimiento permiten la depuración post hoc cuando un agente produce un resultado incorrecto. Puedes reproducir la ejecución exacta y ver cada paso.

Estrategia de muestreo de seguimiento:

  • Muestra del 100% de transacciones de alto valor (>$X impacto monetario)
  • Muestra del 100% de las excepciones y escalamientos.
  • Muestra del 5 al 10% de las transacciones de rutina para el seguimiento de la calidad.
  • Muestra del 100% de los resultados para los clientes que informan problemas.

Diseño de tablero

Los paneles de control de agentes de IA eficaces comunican información diferente a la de los paneles de aplicaciones tradicionales. Paneles clave:

Panel de operaciones en tiempo real:

  • Ejecuciones activas
  • Profundidad de la cola
  • Tasa de ejecución (últimos 5 minutos frente a la línea de base)
  • Tasa de error (últimos 5 minutos)
  • Latencia P95

Panel de tendencias de calidad (vista de 24 horas):

  • Tendencia de la tasa de precisión (a partir de una evaluación de muestra)
  • Tendencia de la tasa de anulación humana
  • Tendencia de la tasa de excepción/escalada
  • Distribución de la puntuación de confianza.

Panel de costos:

  • Consumo de tokens de hoy versus pronóstico
  • Costo por tarea exitosa (tendencia)
  • Ejecuciones anómalas (consumo de tokens atípico)
  • Proyección de costos semanales

Panel de resultados empresariales:

  • Tasa de finalización de tareas por tipo de flujo de trabajo
  • Tasa de éxito aguas abajo
  • Satisfacción del cliente (si se mide)
  • Volumen procesado (en comparación con el período anterior)

Detección de deriva

Uno de los modos de falla más insidiosos de los agentes de IA es la deriva gradual: el rendimiento del agente se degrada lentamente con el tiempo a medida que la distribución de entradas se aleja de la distribución de entrenamiento o a medida que el proveedor actualiza el modelo.

Monitoreo de distribución de entrada

Realice un seguimiento de las estadísticas sobre la distribución de sus datos de entrada a lo largo del tiempo. Alerta sobre cambios significativos:

  • Desviación del vocabulario (aparecen nuevos términos que no estaban en los datos de entrenamiento)
  • Cambios en la distribución de la longitud de las entradas (entradas inusualmente largas o cortas)
  • Cambios de idioma o formato en las entradas.
  • Nuevos tipos de documentos que aparecen en los procesos de procesamiento de documentos.

Detección de cambio de versión del modelo

Los proveedores de LLM actualizan sus modelos continuamente. Algunas actualizaciones son silenciosas (mismo identificador de modelo, diferentes pesos). Monitorear para:

  • Cambios en la distribución de la longitud de la respuesta.
  • Cambios en la tasa de cumplimiento de formato
  • Cambios en el perfil de latencia
  • Cambios en la distribución de la puntuación de confianza.

Cuando cualquiera de estas métricas cambie significativamente, ejecute la evaluación del conjunto de datos dorado inmediatamente para cuantificar el impacto en la precisión.

Deriva del concepto

Las reglas comerciales y el conocimiento del dominio cambian con el tiempo. Un agente capacitado para aplicar las reglas de precios de 2024 producirá resultados incorrectos cuando las reglas de precios de 2025 entren en vigor. Monitorear:

  • Tasa de anulación humana por código de motivo (el aumento de anulaciones por un motivo específico indica una desviación del concepto en esa área)
  • Cambios en la distribución del tipo de error.
  • Razones de escalada de excepciones

Respuesta a incidentes para agentes de IA

Los incidentes de agentes de IA difieren de los incidentes de software tradicionales. El fracaso a menudo no es un colapso: es una degradación en la calidad de la producción que afecta sutilmente los resultados del negocio.

Niveles de gravedad del incidente:

NivelDefiniciónTiempo de respuestaAcción
P1Agente que produce resultados sistemáticamente incorrectos que afectan las decisiones financieras o de seguridadInmediatoDeshabilitar agente, respaldo manual
P2Precisión degradada >10 % por debajo del valor inicial30 minutosAlertar, evaluar la causa raíz, considerar desactivar
P3Tasa de excepción elevada, calidad en el límite2 horasInvestigar, vigilar de cerca
P4Rendimiento degradado pero dentro del umbral aceptableSiguiente día hábilRegistro para el próximo ciclo de iteración

Guía de respuesta a incidentes P1:

  1. Detectar: Activadores de alertas automatizados desde el sistema de monitoreo
  2. Evaluar (5 minutos): Revisar ejecuciones recientes, identificar patrón de error
  3. Contener (10 minutos): Cambiar al proceso de respaldo manual, desactivar el agente si es necesario
  4. Diagnóstico (30-60 minutos): Identificar la causa raíz (cambio de modelo, cambio de distribución de insumos, regresión rápida, falla de integración)
  5. Remediar: Aplicar corrección (actualización rápida, reversión del modelo, cambio de validación de entrada, corrección de integración)
  6. Validar: Ejecute la evaluación del conjunto de datos de oro contra el agente fijo
  7. Restaurar: Vuelva a habilitar el agente con monitoreo en estado de alerta elevada
  8. Post-mortem: Documente en un plazo de 48 horas: qué falló, por qué y cómo evitar que vuelva a ocurrir.

Pruebas A/B para mejoras de agentes

Mejorar los agentes de IA requiere evaluar los cambios de forma segura antes de su implementación completa. Las pruebas A/B permiten esto:

Prueba en modo sombra: Ejecute la nueva versión del agente en el tráfico de producción sin utilizar sus salidas: compare las salidas sombra con las salidas actuales del agente para cuantificar la diferencia antes de que afecte a los clientes.

Implementación de Canary: Enruta entre el 5% y el 10% del tráfico de producción a la nueva versión del agente. Monitorizar métricas de calidad de la población canaria vs. la población control. Avance si las métricas mejoran o se mantienen, retroceda si se degradan.

Campeón/retador: El agente de producción actual es el "campeón". Las nuevas versiones de los agentes son "desafiantes". Los retadores deben demostrar una mejora estadísticamente significativa en el conjunto de datos dorado antes de ascender a campeón.

Disparadores de reversión: Defina desencadenadores de reversión automatizados: si la precisión del canary cae por debajo del umbral o la tasa de anulación humana aumenta por encima del umbral, se revertirá automáticamente al campeón.


Preguntas frecuentes

¿Con qué frecuencia debemos ejecutar evaluaciones de conjuntos de datos dorados en producción?

Ejecútelo en cada implementación (incluidos los cambios de versión del modelo), semanalmente como verificación de estado e inmediatamente cuando el monitoreo detecte anomalías. Para agentes de alto riesgo (decisiones financieras, documentación médica), ejecútelo diariamente. Las canalizaciones de CI/CD automatizadas pueden activar la evaluación del conjunto de datos de oro automáticamente en cada cambio de código.

¿Cómo detectamos cuando el proveedor de LLM actualiza silenciosamente el modelo?

Supervise las características de la respuesta que deberían ser estables: duración promedio de la respuesta, tasa de cumplimiento del formato, distribución de la puntuación de confianza y perfil de latencia. Cualquier cambio significativo en estas métricas desencadena una evaluación del conjunto de datos de oro para cuantificar el impacto en la precisión. Algunos proveedores ofrecen control de versiones del modelo que se fija a una versión específica; utilícelo cuando esté disponible.

¿Cuál es un umbral de precisión aceptable para los agentes de IA de producción?

Esto depende completamente del caso de uso y del costo de los errores. Para los agentes que toman decisiones financieras autónomas, normalmente se requiere una precisión superior al 98%. Para los agentes que producen borradores que los humanos revisan, entre el 85% y el 90% suele ser aceptable porque el humano detecta errores. Para los agentes que generan análisis internos donde los errores son de bajo riesgo, el 80% puede ser suficiente. Defina su umbral basándose en el análisis del coste del error, no en puntos de referencia arbitrarios.

¿Cómo manejamos el RGPD y los requisitos de privacidad de datos para almacenar seguimientos de ejecución de agentes?

El sistema de seguimiento de OpenClaw admite la redacción de PII antes del almacenamiento: configure qué campos redactar en la configuración de seguimiento. Los seguimientos se almacenan con períodos de retención configurables para cumplir con los requisitos de minimización de datos. Para implementaciones basadas en la UE, el almacenamiento de seguimiento se puede configurar para regiones exclusivas de la UE. Las personas pueden solicitar la eliminación de sus datos de los rastreos según las disposiciones de derecho de eliminación del RGPD.

¿Cuál es la tasa de muestreo de revisión humana que necesitamos para un monitoreo de calidad efectivo?

Para la mayoría de los agentes, un muestreo del 2-5% de los resultados de producción proporciona un seguimiento de la calidad estadísticamente significativo. Para agentes de alto valor o alto riesgo, aumente al 10-20%. El proceso de revisión debe estar estructurado: los revisores utilizan una rúbrica estandarizada en lugar de impresiones generales. La interfaz de revisión de OpenClaw presenta resultados de muestra con la rúbrica y captura comentarios estructurados.

¿Podemos automatizar el proceso de revisión humana utilizando otro LLM?

Parcialmente. Los patrones "LLM como juez" funcionan bien para evaluar el formato de salida, la integridad y la precisión fáctica básica. Funcionan menos bien para evaluar la corrección de un dominio específico (para determinar si una evaluación de riesgos de un contrato es correcta se requiere experiencia legal, no un juicio general de IA). Utilice la evaluación LLM automatizada para la escala y la revisión humana para la calibración y validación.


Próximos pasos

La implementación de pruebas y monitoreo a nivel de producción para agentes de IA requiere experiencia tanto con sistemas de IA como con prácticas de DevOps. La implementación de OpenClaw de ECOSIRE incluye una arquitectura de monitoreo diseñada para los flujos de trabajo de sus agentes específicos, paneles preconfigurados, políticas de alerta y runbooks de respuesta a incidentes.

Explore los servicios de mantenimiento y soporte de OpenClaw para conocer las opciones de optimización y monitoreo continuo, o programe una consulta para analizar la arquitectura de monitoreo para su implementación de OpenClaw actual o planificada.

E

Escrito por

ECOSIRE Research and Development Team

Construyendo productos digitales de nivel empresarial en ECOSIRE. Compartiendo perspectivas sobre integraciones Odoo, automatización de eCommerce y soluciones empresariales impulsadas por IA.

Chatea en whatsapp