Observabilidad en Agentes GenAI: De MLflow Traces a Dashboards de Calidad en Databricks
La construcción de agentes de IA Generativa (GenAI) ha pasado de ser una novedad a una necesidad. Sin embargo, una vez que el “Hola Mundo” de tu RAG (Retrieval-Augmented Generation) funciona, te enfrentas al verdadero problema de producción: ¿Cómo sé qué está pasando realmente dentro de mi agente? Recientemente, Databricks ha evolucionado las Inference Tables, permitiendo capturar payloads y métricas de rendimiento directamente desde el Model Serving. Sin embargo, cuando necesitamos un análisis profundo del razonamiento del agente —sus “pensamientos”, recuperación de documentos y evaluaciones intermedias—, las MLflow Traces siguen siendo la fuente de verdad más rica para entender la cadena de razonamiento (Chain of Thought) y los pasos intermedios. ...