τ_0-WM: Modelo de mundo unificado de video y acción para robótica | Predicción de efectos de acción en manipulación robótica mediante modelos de mundo | Sistema unificado para la comprensión de dinámicas físicas en agentes robóticos
Abstract
PROBLEMA: Los sistemas robóticos actuales a menudo carecen de una comprensión unificada de cómo sus acciones afectan el entorno visual, lo que limita su capacidad de planificación en tareas complejas de manipulación. SOLUCIÓN: Se introduce τ_0-WM, un modelo de mundo unificado que integra secuencias de video y comandos de acción para predecir estados futuros de forma coherente. METODOLOGÍA: Utilizan una arquitectura de transformadores entrenada en diversos datasets de manipulación para aprender la dinámica del entorno condicionada a la acción del agente. RESULTADOS: El modelo muestra una capacidad superior para predecir consecuencias visuales de las acciones y mejora significativamente el rendimiento en tareas de manipulación de "zero-shot". RELEVANCIA: Este trabajo avanza en la creación de "foundation models" para robótica que pueden razonar sobre la física y la causalidad del mundo real a través de la visión.