5 de julio de 2026

Preentrenamiento de agentes VLA centrado en movimiento previo a la tarea | Importancia de la navegación básica en la IA robótica | Mejora de transferencia en modelos Vision-Language-Action mediante aprendizaje de movimiento agnóstico

VLA modelstask-agnostic pretrainingrobótica embodiedagentes visualesmovimiento autónomoworld modelspreentrenamiento de tareas

Abstract

PROBLEMA: Los modelos Vision-Language-Action (VLA) suelen tener dificultades para generalizar a nuevas tareas porque el aprendizaje de la manipulación y la semántica de la tarea se entrelazan demasiado pronto en el entrenamiento. SOLUCIÓN: Los investigadores proponen 'Learning to Move Before Learning to Do', una estrategia de preentrenamiento agnóstico a la tarea enfocada exclusivamente en la comprensión de la dinámica del movimiento y la navegación. METODOLOGÍA: El agente es preentrenado en diversos entornos solo para dominar transiciones de estado y movimiento antes de ser expuesto a comandos específicos de lenguaje o tareas de manipulación de objetos. RESULTADOS: Los modelos resultantes muestran una mayor transferencia de habilidades y requieren significativamente menos datos de 'fine-tuning' para aprender tareas complejas de nivel superior. RELEVANCIA: Define una nueva jerarquía de entrenamiento para IA en robótica, priorizando modelos de mundo físicos sobre comandos lingüísticos.

Leer paper original

Volver a Papers IA