Ir al contenido principalSaltar al contenido

HumanScale: El video humano egocéntrico supera a los datos robóticos para el pre-entrenamiento físico | Uso de videos de humanos para enseñar a robots a interactuar con el mundo | Escalamiento de datos para inteligencia artificial física mediante observación humana

Embodied Pretrainingvideo egocéntricoHumanScale datasettransferencia de conocimiento h2raprendizaje por observaciónworld models trainingvisión robótica

Abstract

PROBLEMA: La escasez de datos de alta calidad de robots reales limita el entrenamiento de modelos de mundo potentes. Los datos sintéticos a menudo carecen de la riqueza del mundo real. SOLUCIÓN: El paper introduce HumanScale, demostrando que el video egocéntrico humano (primera persona) es una fuente más rica y escalable para el pre-entrenamiento de agentes físicos que los propios datos robóticos. METODOLOGÍA: Se realiza un estudio comparativo masivo pre-entrenando modelos con datasets de humanos vs robots y evaluando su transferencia a tareas de control motor. RESULTADOS: Los modelos entrenados con video humano superan consistentemente a los entrenados solo con datos de robots, debido a la diversidad de interacciones y la comprensión de la causalidad física. RELEVANCIA: Propone un cambio de paradigma en cómo se deben recopilar datos para la próxima generación de modelos de inteligencia física.

Escríbenos por WhatsApp
Asesor Virtual 24h - Abre el chat para consultasAsesor Virtual 24h