Beyond Static Leaderboards: Predictive Validity for LLM Agents | Evaluando la eficacia real de los agentes de IA más allá de las pruebas tradicionales | Hacia un sistema de métricas que prediga el éxito de la IA en entornos de producción reales
Abstract
PROBLEMA: Los leaderboards estáticos actuales para LLMs a menudo no se correlacionan con el rendimiento real de los agentes en tareas dinámicas, creando una falsa sensación de progreso que falla al implementarse en producción. SOLUCIÓN: El estudio propone un nuevo marco de evaluación centrado en la "validez predictiva", analizando cómo las métricas de laboratorio se traducen en éxito operativo. METODOLOGÍA: Evaluaron múltiples modelos líderes en una serie de tareas del mundo real y compararon sus puntuaciones en benchmarks tradicionales con su tasa de éxito en entornos dinámicos de múltiples pasos. RESULTADOS: El estudio revela una brecha significativa (gap) entre el rendimiento en benchmarks de conocimiento y la capacidad de resolución de problemas de los agentes, proponiendo un conjunto de nuevas métricas basadas en la robustez y capacidad de corrección. RELEVANCIA: Este paper redefine cómo las empresas deben seleccionar modelos para aplicaciones prácticas de agentes, priorizando la eficacia sobre los puntajes en exámenes estáticos.