ThoughtFold: Optimización de cadenas de razonamiento mediante aprendizaje introspectivo | Cómo comprimir el razonamiento de los LLMs sin perder calidad | Eficiencia en modelos de lenguaje de razonamiento profundo
Abstract
PROBLEMA: Las cadenas de pensamiento (Chain-of-Thought) extensas mejoran el razonamiento pero aumentan drásticamente la latencia y el coste computacional durante la inferencia. SOLUCIÓN: ThoughtFold presenta un método de 'plegado' de cadenas de razonamiento utilizando aprendizaje de preferencias introspectivas para destilar pensamientos largos en representaciones más concisas pero igualmente potentes. METODOLOGÍA: Utilizan una técnica de fine-tuning basada en preferencias donde el modelo aprende a priorizar los pasos de razonamiento fundamentales, eliminando redundancias mediante un bucle de retroalimentación interna. RESULTADOS: El método logra mantener la precisión en benchmarks de razonamiento complejo (como matemáticas y código) reduciendo la longitud de salida del pensamiento en un 30-50%. RELEVANCIA: Es un avance clave para hacer que los modelos de razonamiento avanzado (tipo o1-preview) sean viables para aplicaciones en tiempo real y entornos con recursos limitados.