Evolución de la generación visual hacia el modelado de mundo agéntico | Del mapeo atómico de imágenes a la simulación interactiva de la realidad | El futuro de la generación de vídeo como modelos de mundo IA
Abstract
PROBLEMA: La generación visual tradicional se ha centrado en mapeos atómicos estáticos (texto a imagen), careciendo de una comprensión profunda de las dinámicas causales y físicas del mundo real. SOLUCIÓN: Este trabajo define la transición hacia el 'Agentic World Modeling', donde los modelos no solo generan imágenes sino que simulan estados del mundo influenciados por acciones. METODOLOGÍA: Analizan la evolución desde modelos de difusión simples hasta arquitecturas autorregresivas que actúan como motores de simulación física y semántica. RESULTADOS: Identifican los pilares críticos para lograr coherencia temporal y física, estableciendo un nuevo benchmark para evaluar la capacidad de 'mundo' de los actuales generadores de video. RELEVANCIA: Este enfoque es vital para el desarrollo de agentes autónomos y robótica, donde la predicción del siguiente estado visual depende de la interacción con el entorno.