Marco de cooperación Profesor-Estudiante para síntesis de datos SFT consistentes | Cómo mejorar el razonamiento en LLMs mediante ajuste fino especializado | Optimización de datos sintéticos para el entrenamiento de modelos de lenguaje lógicos
Abstract
PROBLEMA: Los datos de Supervised Fine-Tuning (SFT) generados por modelos "profesores" potentes (como GPT-4) a menudo son inconsistentes con las capacidades internas de los modelos "estudiantes" más pequeños, lo que degrada el rendimiento del razonamiento lógico. SOLUCIÓN: El paper propone un marco de cooperación Profesor-Estudiante donde el profesor no solo proporciona la respuesta correcta, sino que adapta la síntesis de los pasos de razonamiento (Chain-of-Thought) para que sean compatibles con el espacio de probabilidad del estudiante. METODOLOGÍA: Implementa un ciclo iterativo donde el estudiante intenta resolver problemas y el profesor interviene para "corregir" la trayectoria de pensamiento hacia una que el estudiante realmente pueda aprender y replicar. RESULTADOS: El método logra mejoras significativas en benchmarks de razonamiento matemático y simbólico utilizando modelos de 7B parámetros comparado con SFT tradicional. RELEVANCIA: Optimiza la eficiencia de la transferencia de conocimiento de modelos frontera a modelos de despliegue local o de menor escala.