EndoCoT: Escalado de Razonamiento de Cadena de Pensamiento Endógeno en Modelos de Difusión
Abstract
EndoCoT propone una técnica innovadora para integrar cadenas de pensamiento (Chain-of-Thought) directamente dentro del proceso de eliminación de ruido de los modelos de difusión. Tradicionalmente, CoT se ha reservado para LLMs textuales; este trabajo demuestra que el escalado de razonamiento latente 'endógeno' permite a los modelos generativos resolver problemas visuales condicionales que requieren lógica multi-paso (como composición espacial compleja o cumplimiento de restricciones físicas). Al forzar al modelo a generar 'pasos de pensamiento latentes' antes de finalizar los píxeles, EndoCoT reduce drásticamente las fallas de composición y mejora la fidelidad semántica en la generación de imágenes y videos, alineando la creatividad visual con el razonamiento lógico.