SANA-WM: Modelado de mundo eficiente a escala de minutos | Uso de transformadores híbridos para predicción de video a largo plazo | Generación de simulaciones consistentes para agentes de IA en horizontes largos
Abstract
PROBLEMA: Los modelos de mundo actuales sufren de ineficiencias computacionales y degradación de la memoria al intentar modelar secuencias temporales largas (escala de minutos), lo que limita su uso en simulaciones realistas. SOLUCIÓN: Se presenta SANA-WM, un modelo de mundo que utiliza un Transformador de Difusión Lineal Híbrido para lograr un modelado eficiente a gran escala temporal sin sacrificar la fidelidad visual o física. METODOLOGÍA: La arquitectura combina la eficiencia de los operadores lineales con la capacidad de modelado de los transformadores de difusión, optimizada para procesar contextos de video extremadamente largos. RESULTADOS: SANA-WM logra generar y mantener la consistencia en secuencias de hasta varios minutos, superando a los modelos baseline en métricas de coherencia espacial y temporal. RELEVANCIA: Es crucial para el desarrollo de agentes autónomos y robots que necesiten planificar acciones en horizontes temporales extendidos dentro de entornos complejos.