12 de abril de 2026

Phantom: Generación de video con leyes físicas integradas | Unificación de dinámicas visuales y físicas latentes en IA | Cómo crear videos generativos que respetan la física real

Physics-infused AIvideo generationlatent physical dynamicsgeneración de video coherentedinámica de fluidos y sólidos IAPhantom modelphysics-based learning

Abstract

PROBLEMA: Los modelos actuales de generación de video suelen crear escenas visualmente impresionantes pero físicamente imposibles (objetos que se atraviesan, Gravedad inconsistente, trayectorias erráticas), lo que limita su utilidad en simulaciones y modelos de mundo. SOLUCIÓN: El paper introduce Phantom, un marco de generación de video que infunde leyes físicas directamente en el proceso de difusión mediante el modelado conjunto de la apariencia visual y las dinámicas físicas latentes. METODOLOGÍA: Incorporan un "módulo de conciencia física" que penaliza las violaciones de las leyes de conservación de masa y energía durante el muestreo del modelo de difusión, entrenado sobre un dataset que mezcla video real con simulaciones físicas precisas. RESULTADOS: Phantom logra una puntuación de consistencia física significativamente mayor en benchmarks humanos y automáticos, produciendo colisiones, caídas y movimientos de fluidos que respetan las leyes de la naturaleza de manera mucho más fiel que los modelos SOTA actuales. RELEVANCIA: Crucial para la creación de "World Models" (modelos de mundo) en los que los agentes de IA puedan entrenarse con confianza antes de ser desplegados en la realidad física.

Leer paper original

Volver a Papers IA