7 de marzo de 2026

DreamWorld: Modelado de Mundo Unificado para la Generación Coherente de Vídeo y Dinámica de Entornos

World ModelsVideo GenerationLatent DynamicsPredictive ModelingUnified Framework

Abstract

DreamWorld presenta un marco unificado de modelado de mundo (World Modeling) integrado directamente en el proceso de generación de vídeo. El paper propone que para generar vídeos coherentes y físicamente plausibles, el modelo debe poseer una comprensión intrínseca de la dinámica del entorno (world model). A diferencia de los generadores de vídeo puramente visuales, DreamWorld entrena latentes que representan estados físicos y transiciones temporales, permitiendo una predicción de 'próximo estado' que rige la síntesis visual. Este avance es fundamental para sistemas de planificación y simulación, ya que permite predecir cómo evolucionará una escena ante determinadas intervenciones. El modelo demuestra una capacidad superior para mantener la consistencia de objetos y leyes físicas en secuencias largas, lo que lo posiciona como una herramienta clave para el entrenamiento de agentes en entornos simulados antes de su despliegue real (sim-to-real).

Leer paper original

Volver a Papers IA