ACE-Ego-0: Unificación de Datos Egocéntricos para el Pre-entrenamiento de Modelos VLA | Integración de visión humana y acción robótica en modelos de IA | Framework para dotar de habilidades motoras a agentes inteligentes mediante observación humana
Abstract
PROBLEMA: Existe una brecha significativa entre los datos de video humanos (abundantes pero sin acciones directas) y los datos robóticos (escasos pero con etiquetas de acción precisas) para entrenar modelos de mundo. SOLUCIÓN: ACE-Ego-0 presenta un marco de alineación que unifica la visión egocéntrica humana con la ejecución robótica, permitiendo que el modelo aprenda representaciones de acción a partir de videos de humanos. METODOLOGÍA: Utilizan un 'Shared Action Latent Space' donde las trayectorias visuales de actividades humanas se mapean a primitivas de control robótico mediante un proceso de traducción trans-dominio. RESULTADOS: El pre-entrenamiento con ACE-Ego-0 mejora la generalización en nuevas tareas de manipulación en un 25% respecto a modelos entrenados solo con datos de robots. RELEVANCIA: Este trabajo es fundamental para escalar la inteligencia robótica aprovechando el vasto corpus de video humano disponible en internet.