ExoActor: Generación de Video Exocéntrico para Control Humanoide | Uso de modelos de video interactivos para robótica | Cómo controlar robots mediante visión externa generativa
Abstract
PROBLEMA: El control de robots humanoides basado en visión suele depender de datos egocéntricos difíciles de obtener o simulaciones que no capturan la complejidad del mundo real, limitando la transferencia de habilidades (sim-to-real). SOLUCIÓN: El paper presenta ExoActor, un sistema que utiliza la generación de video exocéntrico como un mecanismo de control interactivo y generalizable, permitiendo que el modelo 'imagine' el movimiento desde una perspectiva externa para guiar al robot. METODOLOGÍA: Utilizan modelos de difusión latente entrenados en grandes bases de datos de video humano y robótico para aprender dinámicas físicas y espaciales, integrando una arquitectura de retroalimentación en tiempo real. RESULTADOS: Logran una precisión superior en tareas de manipulación y locomoción comparado con métodos de aprendizaje por refuerzo tradicionales, demostrando una robustez excepcional ante oclusiones. RELEVANCIA: Es fundamental para el desarrollo de sistemas agénticos que operan en entornos físicos utilizando modelos de mundo visuales para la toma de decisiones.