Ir al contenido principal

EndoCoT: Escalado de Razonamiento de Cadena de Pensamiento Endógeno en Modelos de Difusión

Endogenous CoTDiffusion ModelsReasoning ChainsVisual Problem SolvingIterative Refinement

Abstract

EndoCoT propone una técnica innovadora para integrar cadenas de pensamiento (Chain-of-Thought) directamente dentro del proceso de eliminación de ruido de los modelos de difusión. Tradicionalmente, CoT se ha reservado para LLMs textuales; este trabajo demuestra que el escalado de razonamiento latente 'endógeno' permite a los modelos generativos resolver problemas visuales condicionales que requieren lógica multi-paso (como composición espacial compleja o cumplimiento de restricciones físicas). Al forzar al modelo a generar 'pasos de pensamiento latentes' antes de finalizar los píxeles, EndoCoT reduce drásticamente las fallas de composición y mejora la fidelidad semántica en la generación de imágenes y videos, alineando la creatividad visual con el razonamiento lógico.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h