AgenticDataBench: Un benchmark integral para agentes de datos | Evaluación de la autonomía de IA en tareas de ciencia de datos | Métricas para medir agentes expertos en análisis y procesamiento de datos
Abstract
PROBLEMA: Existe una falta de métricas estandarizadas para medir la eficacia de los agentes de IA diseñados para realizar tareas de ciencia de datos, como limpieza de datos, análisis exploratorio y modelado. SOLUCIÓN: Proponen AgenticDataBench, un benchmark integral que abarca el ciclo de vida completo de los datos, exigiendo a los agentes interactuar con bases de datos y entornos de ejecución de código. METODOLOGÍA: Compuesto por 500 tareas complejas que incluyen consultas SQL complejas, manipulación de dataframes en Python y generación de visualizaciones. RESULTADOS: Los resultados muestran una brecha significativa entre la capacidad de codificación de los modelos y su capacidad de razonamiento estratégico sobre qué pasos seguir para resolver un problema de datos. RELEVANCIA: Permite identificar las debilidades de los agentes actuales en flujos de trabajo de ingeniería y ciencia de datos, acelerando el desarrollo de asistentes analíticos autónomos.