21 de marzo de 2026

Los modelos generativos conocen el espacio: Uso de conocimientos 3D implícitos | Extracción de geometría 3D desde modelos de difusión de imágenes | Cómo los LLMs visuales desarrollan modelos de mundo tridimensionales

3D priorsworld modelsscene understandinggenerative modelscomprensión espacialmodelos de mundovisión artificial 3D

Abstract

PROBLEMA: Determinar si los modelos generativos de imágenes poseen una comprensión real de la estructura 3D o si se limitan a replicar patrones 2D superficiales. SOLUCIÓN: El estudio demuestra que estos modelos contienen "priors" tridimensionales implícitos que pueden ser extraídos para mejorar la comprensión de escenas. METODOLOGÍA: Los autores diseñan un método para sondear (probing) las capas internas de modelos generativos y utilizar sus activaciones para reconstruir estructuras espaciales 3D a partir de una sola imagen. RESULTADOS: Demuestran que los modelos entrenados solo con imágenes 2D superan a varios modelos supervisados en tareas de estimación de profundidad y geometría de escena. RELEVANCIA: Valida la idea de que la generación de imágenes de alta fidelidad requiere, inherentemente, construir un modelo de mundo interno.

Leer paper original

Volver a Papers IA