Destilación de razonamiento Long-CoT mediante decodificación colaborativa de múltiples profesores | Cómo transferir lógica compleja de modelos grandes a pequeños de forma eficiente | Mejora de la cadena de pensamiento en LLMs mediante aprendizaje multi-guía paso a paso
Abstract
PROBLEMA: Los modelos de lenguaje pequeños suelen fallar en tareas que requieren razonamiento de larga duración (Long-CoT), y la destilación tradicional de un solo profesor a menudo no captura la diversidad de caminos lógicos posibles. SOLUCIÓN: Se propone un método de destilación colaborativa paso a paso utilizando varios modelos "profesores" para guiar al modelo pequeño durante cada token de la cadena de razonamiento. METODOLOGÍA: El sistema integra las probabilidades de salida de múltiples LLMs expertos para suavizar el aprendizaje del estudiante, enfocándose en la estructura lógica más que solo en el resultado final. RESULTADOS: El modelo destilado superó significativamente a los modelos entrenados con destilación estándar en benchmarks de matemáticas y lógica, manteniendo un tamaño computacionalmente eficiente. RELEVANCIA: Es una técnica vital para llevar capacidades de razonamiento de nivel GPT-4 a modelos que puedan ejecutarse localmente o con baja latencia.