ACE-Ego-0 y GameCraft-Bench: Unificación de datos egocéntricos y evaluación de agentes en motores de juego | Modelos VLA para robótica y creación de mundos virtuales | Entramiento de agentes con visión en primera persona para tareas de ingeniería
Abstract
PROBLEMA: Existe una brecha significativa entre la percepción visual y la capacidad de acción en agentes autónomos, agravada por la escasez de datos que unifiquen la perspectiva humana y la ejecución robótica. SOLUCIÓN: El estudio presenta ACE-Ego-0 para unificar datos egocéntricos de humanos y robots, junto con GameCraft-Bench para evaluar agentes en la creación de videojuegos. METODOLOGÍA: Utilizan un framework de preentrenamiento Vision-Language-Action (VLA) sobre un corpus masivo de grabaciones en primera persona, evaluando a los agentes en motores de juego comerciales para medir su capacidad de construcción 'end-to-end'. RESULTADOS: Los modelos ACE demuestran una transferencia de habilidades superior de humanos a robots, mientras que el benchmark GameCraft revela las limitaciones actuales en el razonamiento espacial a largo plazo de los agentes. RELEVANCIA: Es un avance clave para el desarrollo de World Models (modelos de mundo) que puedan interactuar en entornos complejos tanto digitales como físicos.