Framework Profesor-Estudiante para el ajuste fino de modelos de razonamiento | Cómo sintetizar datos SFT consistentes para modelos de lenguaje | Optimización de transferencia de conocimiento en tareas de razonamiento lógico
Abstract
PROBLEMA: El Supervised Fine-Tuning (SFT) de modelos de razonamiento a menudo falla porque los datos generados por modelos "profesores" no son consistentes con las capacidades o el estilo cognitivo del modelo "estudiante". SOLUCIÓN: Los autores proponen un framework de cooperación Profesor-Estudiante que sintetiza datos SFT específicamente diseñados para ser consistentes con la arquitectura del estudiante. METODOLOGÍA: El sistema filtra y adapta las explicaciones de razonamiento del profesor basándose en la probabilidad de éxito y la lógica interna que el estudiante puede procesar efectivamente. RESULTADOS: Se observa una mejora significativa en tareas de razonamiento matemático y lógico, superando el fine-tuning tradicional que usa datos crudos del profesor. RELEVANCIA: Esta técnica es crucial para destilar capacidades de razonamiento complejo desde modelos gigantes a modelos más pequeños y eficientes sin pérdida de coherencia.