HY-World 2.0: Modelo de Mundo Multimodal para la Reconstrucción y Simulación 3D | Generación dinámica de entornos 3D mediante Inteligencia Artificial | Simulación de escenarios complejos para el entrenamiento de agentes autónomos
Abstract
PROBLEMA: Los modelos de mundo actuales suelen limitarse a representaciones 2D o secuencias de vídeo planas, lo que dificulta su aplicación en tareas que requieren una comprensión espacial profunda y una interacción física realista en tres dimensiones. SOLUCIÓN: HY-World 2.0 introduce un marco multimodal avanzado capaz de reconstruir, generar y simular mundos 3D complejos. El sistema permite pasar de descripciones textuales o imágenes aisladas a entornos tridimensionales navegables y físicamente consistentes. METODOLOGÍA: Utiliza una arquitectura basada en transformers para la síntesis de escenas y una capa de simulación latente que predice cambios de estado en el entorno 3D. Se entrena con un corpus masivo de datos sintéticos y reales que incluyen profundidad y semántica. RESULTADOS: Demuestra una fidelidad superior en la reconstrucción de escenas frente a métodos previos de Gaussian Splatting y una capacidad de razonamiento espacial robusta en tareas de navegación. RELEVANCIA: Es fundamental para el desarrollo de agentes autónomos y sistemas de robótica que operan en el mundo real bajo el paradigma de "model-based RL".