Dream.exe: Generación de video ejecutable para manipulación robótica | Modelos de mundo que imaginan y ejecutan acciones físicas | Transformando predicción visual de video en planes de control robótico
Abstract
PROBLEMA: La brecha entre la percepción visual y la ejecución motriz en robótica (sim-to-real) sigue siendo un desafío, donde los modelos de video a menudo generan visuales plausibles pero físicamente imposibles para un actuador. SOLUCIÓN: El estudio introduce Dream.exe, un enfoque donde los modelos de generación de video no solo imaginan la tarea completada, sino que generan una "alucinación ejecutable" que puede traducirse directamente en comandos de control. METODOLOGÍA: Utilizan modelos de difusión condicionados en lenguaje y estado actual para predecir cuadros futuros que contienen información implícita de contacto y fuerza, decodificada mediante un policy-interpreter. RESULTADOS: El método supera a los enfoques de aprendizaje por imitación tradicionales en tareas de manipulación de objetos deformables, demostrando una comprensión profunda de las físicas del entorno. RELEVANCIA: Representa un avance significativo en modelos de mundo donde la generación visual y la síntesis de acciones están intrínsecamente unidas.