WorldStereo: Generación de Video y Reconstrucción de Escenas mediante Memorias Geométricas 3D
Abstract
WorldStereo introduce una arquitectura que une la generación de video guiada por cámara con la reconstrucción de escenas mediante el uso de 'Memorias Geométricas 3D'. El problema central que resuelve es la falta de consistencia física y temporal en los modelos de generación de video actuales. Al integrar un componente de memoria que almacena la estructura geométrica de la escena durante el proceso de inferencia, WorldStereo permite generar videos donde los objetos mantienen su posición y forma 3D a pesar de movimientos complejos de la cámara. Este enfoque es un paso adelante hacia los 'World Models' que no solo predicen píxeles, sino que entienden la estructura espacial subyacente de la escena. Las aplicaciones para navegación autónoma y modelado de dinámicas espaciales son directas, ya que proporciona un mecanismo para que la IA razone sobre la permanencia de objetos y la geometría del entorno en movimiento.