SANA-WM: Modelado de mundo eficiente a escala de minutos | Simulación de entornos físicos de larga duración con transformers híbridos | Arquitectura para predicción de video y estados del mundo en alta fidelidad
Abstract
PROBLEMA: Los modelos de mundo actuales suelen sufrir de ineficiencia computacional y degradación de la calidad cuando intentan generar o predecir secuencias de video largas, limitándose generalmente a pocos segundos. SOLUCIÓN: Se introduce SANA-WM, un modelo de mundo que utiliza un Transformador de Difusión Lineal Híbrido para permitir predicciones visuales consistentes a escala de minutos con un consumo de recursos reducido. METODOLOGÍA: La arquitectura combina la expresividad de los transformers con la eficiencia de los operadores lineales, entrenada en extensos datasets de video para aprender dinámicas temporales de largo alcance. RESULTADOS: Logra una eficiencia superior en la generación de secuencias largas manteniendo la coherencia espacial y temporal, superando a benchmarks previos en tareas de navegación y simulación. RELEVANCIA: Es fundamental para el desarrollo de agentes autónomos y robots que necesitan un 'sentido' del entorno y predicción de eventos futuros en horizontes temporales amplios.