Ir al contenido principal

SANA-WM: Modelado de Mundo Eficiente en Escala de Minutos | Transformadores de difusión híbridos para simulaciones temporales largas | Generación de video coherente para planificación de agentes a largo plazo

World Modelsmodelos de mundoLinear Diffusion Transformertransformadores de difusión linealSANA-WMvideo generationMinute-Scale Modelingsimulación temporal

Abstract

PROBLEMA: El modelado de mundo a gran escala temporal (minutos en lugar de segundos) es computacionalmente prohibitivo para los Transformadores de Difusión estándar. SOLUCIÓN: SANA-WM propone un Transformer de Difusión Lineal Híbrido que mantiene la fidelidad visual mientras reduce drásticamente el coste computacional en secuencias largas. METODOLOGÍA: Se implementa una arquitectura que combina mecanismos de atención lineal para contextos largos con difusión latente, entrenada en diversos datasets de video y simulaciones robóticas. RESULTADOS: Lograron generar secuencias coherentes de hasta varios minutos con una eficiencia 10 veces superior a los modelos previos, manteniendo la consistencia geométrica. RELEVANCIA: Crucial para agentes autónomos y robótica que requieren predecir consecuencias de sus actos en horizontes temporales extendidos.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h