Benchmarks Interactivos: Evaluación Dinámica de Bucle Cerrado para Modelos de Inteligencia Artificial
Abstract
Este artículo introduce una nueva generación de benchmarks interactivos diseñados para evaluar modelos de lenguaje en entornos dinámicos de bucle cerrado. Los benchmarks tradicionales de opción múltiple o generación estática sufren de contaminación de datos y no logran capturar la capacidad adaptativa de un modelo. Este nuevo marco de trabajo propone que la evaluación sea un proceso interactivo donde el modelo debe responder a cambios en el entorno provocados por sus propias acciones previas. El paper detalla una infraestructura que soporta múltiples dominios, desde resolución de problemas lógicos hasta la interacción con APIs simuladas. Los resultados iniciales muestran que modelos que rinden excepcionalmente bien en benchmarks estáticos ven una degradación significativa de su performance en estos entornos interactivos, lo que sugiere que la "inteligencia" medida previamente podría estar sesgada por memorización. El sistema incluye métricas de eficiencia en la resolución de pasos y robustez ante retroalimentación contradictoria, ofreciendo una visión mucho más realista de la utilidad agéntica de los LLMs.