18 de junio de 2026

ACE-Ego-0: Unificación de Datos Egocéntricos para el Pre-entrenamiento de Modelos VLA | Integración de visión humana y acción robótica en modelos de IA | Framework para dotar de habilidades motoras a agentes inteligentes mediante observación humana

VLA modelsVision-Language-Actionrobótica egocéntricapre-entrenamiento unificadoACE-Ego-0datos multimodalesembodied AI

Abstract

PROBLEMA: Existe una brecha significativa entre los datos de video humanos (abundantes pero sin acciones directas) y los datos robóticos (escasos pero con etiquetas de acción precisas) para entrenar modelos de mundo. SOLUCIÓN: ACE-Ego-0 presenta un marco de alineación que unifica la visión egocéntrica humana con la ejecución robótica, permitiendo que el modelo aprenda representaciones de acción a partir de videos de humanos. METODOLOGÍA: Utilizan un 'Shared Action Latent Space' donde las trayectorias visuales de actividades humanas se mapean a primitivas de control robótico mediante un proceso de traducción trans-dominio. RESULTADOS: El pre-entrenamiento con ACE-Ego-0 mejora la generalización en nuevas tareas de manipulación en un 25% respecto a modelos entrenados solo con datos de robots. RELEVANCIA: Este trabajo es fundamental para escalar la inteligencia robótica aprovechando el vasto corpus de video humano disponible en internet.

Leer paper original

Volver a Papers IA