Memoria Espacial Latente para Modelos de Mundo en Video | Solución a la inconsistencia temporal en predicción de video | Arquitectura de memoria persistente para agentes con visión periférica y oclusión
Abstract
PROBLEMA: Los modelos de mundo basados en video suelen sufrir de 'olvido' de objetos o estructuras cuando estos salen del campo de visión, lo que rompe la consistencia física necesaria para la planificación de agentes a largo plazo. SOLUCIÓN: Se propone Latent Spatial Memory (LSM), una arquitectura que desacopla la dinámica temporal de la persistencia espacial mediante una red de memoria latente que mapea características visuales en un lienzo espacial persistente. METODOLOGÍA: Utilizan transformadores de atención dispersa para actualizar selectivamente regiones de la memoria latente basadas en el movimiento de la cámara y los cambios en la escena detectados en los frames de video. RESULTADOS: El sistema supera a los modelos SOTA en tareas de generación de video de larga duración y navegación en entornos simulados, manteniendo la integridad de objetos ocultos durante cientos de pasos de tiempo. RELEVANCIA: Crucial para la creación de agentes robóticos y de videojuegos que requieren una comprensión "objetal" y espacial estable del entorno que habitan.