Ir al contenido principal

Memoria Híbrida para Modelos de Mundo en Video Dinámico | Mantener la persistencia de objetos fuera de vista en modelos de video | Arquitectura de memoria para agentes que operan en entornos dinámicos y complejos

World ModelsHybrid Memorymodelos de mundomemoria dinámicavideo reasoningcoherencia temporalagentes autónomos

Abstract

PROBLEMA: Los modelos de mundo actuales para video suelen sufrir de olvido catastrófico o falta de consistencia cuando enfrentan secuencias largas y dinámicas donde los objetos salen de vista. SOLUCIÓN: El paper propone un sistema de Memoria Híbrida que combina una memoria asociativa de corto plazo con una estructura de almacenamiento persistente basada en objetos para mantener representaciones latentes estables. METODOLOGÍA: Se implementa sobre arquitecturas de transformers de video, integrando un mecanismo de 'slot-attention' modificado para rastrear entidades incluso cuando no son visibles en el frame actual. RESULTADOS: Demuestra una mejora del 35% en tareas de razonamiento espacial a largo plazo y una reducción significativa del jitter en la navegación de agentes en entornos simulados complejos. RELEVANCIA: Es fundamental para el desarrollo de agentes que operan en el mundo real (embodied AI) y requieren una comprensión persistente del entorno físico.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h