WorldLines: Benchmarking y modelado de agentes embodied de estado de largo horizonte | Evaluación de consistencia y memoria en agentes inteligentes en entornos complejos | Marco para medir la planificación persistente en IA robótica y operativa
Abstract
PROBLEMA: Los benchmarks actuales para agentes embodied a menudo se centran en tareas de corta duración o con estados estáticos, lo que no refleja la complejidad del mundo real donde las acciones pasadas alteran permanentemente el entorno. Esto dificulta evaluar la capacidad de un agente para mantener consistencia y razonar sobre consecuencias a largo plazo (stateful razonamiento). SOLUCIÓN: El paper presenta WorldLines, un nuevo marco de evaluación diseñado específicamente para medir el desempeño de agentes en escenarios de largo horizonte donde el estado del mundo es persistente y evolutivo. Introduce métricas para cuantificar la deriva del estado y el éxito en la recuperación de errores tras múltiples interacciones. METODOLOGÍA: Se diseñó un entorno diversificado con dependencias causales complejas y un conjunto de tareas que requieren hasta cientos de pasos de interacción. El benchmark utiliza un sistema de simulación que rastrea las 'líneas de mundo' (trayectorias de estado) para comparar el camino del agente contra el óptimo posible. RESULTADOS: Los resultados muestran que incluso los modelos de lenguaje más avanzados actuales (SOTA) presentan degradación significativa en tareas que superan los 50 pasos, evidenciando una brecha en la persistencia de la memoria y la planificación de estados. RELEVANCIA: Es fundamental para el desarrollo de sistemas de robótica y agentes autónomos que deben operar de forma independiente en entornos domésticos o industriales durante periodos prolongados sin perder el objetivo.