Preentrenamiento de agentes VLA centrado en movimiento previo a la tarea | Importancia de la navegación básica en la IA robótica | Mejora de transferencia en modelos Vision-Language-Action mediante aprendizaje de movimiento agnóstico
Abstract
PROBLEMA: Los modelos Vision-Language-Action (VLA) suelen tener dificultades para generalizar a nuevas tareas porque el aprendizaje de la manipulación y la semántica de la tarea se entrelazan demasiado pronto en el entrenamiento. SOLUCIÓN: Los investigadores proponen 'Learning to Move Before Learning to Do', una estrategia de preentrenamiento agnóstico a la tarea enfocada exclusivamente en la comprensión de la dinámica del movimiento y la navegación. METODOLOGÍA: El agente es preentrenado en diversos entornos solo para dominar transiciones de estado y movimiento antes de ser expuesto a comandos específicos de lenguaje o tareas de manipulación de objetos. RESULTADOS: Los modelos resultantes muestran una mayor transferencia de habilidades y requieren significativamente menos datos de 'fine-tuning' para aprender tareas complejas de nivel superior. RELEVANCIA: Define una nueva jerarquía de entrenamiento para IA en robótica, priorizando modelos de mundo físicos sobre comandos lingüísticos.