TASTE: Mejora de la cobertura y dificultad en benchmarks de agentes | Evaluación rigurosa de agentes de IA con el framework TASTE | Nuevos estándares para medir la eficacia de agentes autónomos en tareas complejas
Abstract
PROBLEMA: Los benchmarks existentes para agentes suelen ser demasiado simples o carecen de cobertura suficiente para evaluar capacidades de razonamiento multietapa en entornos reales. SOLUCIÓN: Introducen TASTE, un nuevo framework de evaluación diseñado para aumentar la dificultad y la diversidad de las tareas asignadas a los agentes. METODOLOGÍA: El benchmark utiliza un sistema de generación de tareas procedimentales que garantiza que las soluciones no estén presentes de forma directa en los datos de entrenamiento del modelo. RESULTADOS: Las pruebas revelan que incluso los modelos más avanzados fallan en más del 40% de las nuevas tareas propuestas, exponiendo brechas críticas en el razonamiento a largo plazo. RELEVANCIA: Este trabajo establece un nuevo estándar de rigor para medir el progreso real hacia la inteligencia artificial general (AGI) en el ámbito de agentes autónomos.