GameWorld: Evaluación estandarizada y verificable de agentes de juego multimodales | Framework para medir el rendimiento de IA en entornos virtuales complejos | Benchmark para agentes inteligentes en videojuegos multimodales
Abstract
PROBLEMA: La evaluación de agentes multimodales en videojuegos carece de estándares unificados y métodos de verificación robustos, lo que dificulta comparar el progreso real entre diferentes arquitecturas de agentes en entornos complejos. SOLUCIÓN: El paper presenta GameWorld, un framework diseñado específicamente para la evaluación estandarizada y verificable de agentes que operan en mundos de juego multimodales. METODOLOGÍA: Los autores proponen una suite de entornos controlados y tareas con estados internos accesibles para el evaluador, permitiendo medir no solo el éxito visual sino la lógica de decisión interna del agente. RESULTADOS: Los experimentos demuestran que GameWorld identifica fallos de razonamiento que benchmarks puramente visuales pasan por alto, estableciendo una nueva línea base para el desarrollo de agentes más fiables. RELEVANCIA: Es fundamental para el avance de los sistemas agénticos que requieren interactuar con interfaces complejas y tomar decisiones a largo plazo en mundos dinámicos.