minWM: Framework Open-Source para Modelos de Mundo Interactivos en Tiempo Real | Infraestructura eficiente para la simulación de vídeo orientada a agentes | Herramienta de stack completo para el entrenamiento de world models interactivos
Abstract
PROBLEMA: Los modelos de mundo actuales suelen ser pesados, difíciles de reproducir y carecen de la latencia necesaria para aplicaciones interactivas en tiempo real o simulaciones de robótica fluidas. SOLUCIÓN: El paper presenta minWM, el primer framework open-source de stack completo diseñado específicamente para modelos de mundo de vídeo interactivos. Permite la predicción de estados futuros basándose en acciones del usuario con una latencia mínima. METODOLOGÍA: Utilizan una arquitectura optimizada de predicción de tokens latentes y un motor de renderizado eficiente que desacopla la generación de la inferencia lógica, permitiendo ejecución distribuida. RESULTADOS: minWM logra una velocidad de generación superior a los 30 FPS en hardware comercial, manteniendo una coherencia visual comparable a modelos mucho más grandes como SORA en tareas de corta duración. RELEVANCIA: Esta arquitectura es vital para el desarrollo de agentes que necesitan 'ensayar' acciones en un entorno simulado antes de ejecutarlas en el mundo real, facilitando el aprendizaje sim-to-real.