World Pilot: Guía de modelos VLA mediante conocimientos previos de acción-mundo | Integración de modelos de mundo predictivos en el control robótico visión-lenguaje | Cómo mejorar la robustez de agentes físicos mediante predicción de estados futuros
Abstract
PROBLEMA: Los modelos Vision-Language-Action (VLA) tradicionales a menudo operan como cajas negras que mapean píxeles directamente a acciones, lo que los hace frágiles ante cambios mínimos en el entorno y carentes de comprensión de causa-efecto. SOLUCIÓN: El paper introduce 'World Pilot', un sistema que integra 'World-Action Priors' explícitos. Estos actúan como un guía que predice el estado futuro del mundo antes de decidir la acción, permitiendo que el modelo VLA 'visualice' las consecuencias. METODOLOGÍA: Utilizan una arquitectura desacoplada donde un modelo de mundo predice transiciones de estado latente que alimentan a la política de acción del robot. RESULTADOS: Demuestra una robustez un 40% mayor en entornos con oclusiones y una generalización superior en tareas de manipulación de objetos nunca vistos. RELEVANCIA: Este enfoque es fundamental para el desarrollo de sistemas predictivos espaciales y modelos de mundo que requieren alta fidelidad en la secuencia acción-resultado.