17 de abril de 2026

Framework Profesor-Estudiante para el ajuste fino de modelos de razonamiento | Cómo sintetizar datos SFT consistentes para modelos de lenguaje | Optimización de transferencia de conocimiento en tareas de razonamiento lógico

Fine-tuningajuste finoReasoning Modelsmodelos de razonamientoTeacher-Student Frameworkprofesor-estudianteSFT data synthesisconsistencia de datos

Abstract

PROBLEMA: El Supervised Fine-Tuning (SFT) de modelos de razonamiento a menudo falla porque los datos generados por modelos "profesores" no son consistentes con las capacidades o el estilo cognitivo del modelo "estudiante". SOLUCIÓN: Los autores proponen un framework de cooperación Profesor-Estudiante que sintetiza datos SFT específicamente diseñados para ser consistentes con la arquitectura del estudiante. METODOLOGÍA: El sistema filtra y adapta las explicaciones de razonamiento del profesor basándose en la probabilidad de éxito y la lógica interna que el estudiante puede procesar efectivamente. RESULTADOS: Se observa una mejora significativa en tareas de razonamiento matemático y lógico, superando el fine-tuning tradicional que usa datos crudos del profesor. RELEVANCIA: Esta técnica es crucial para destilar capacidades de razonamiento complejo desde modelos gigantes a modelos más pequeños y eficientes sin pérdida de coherencia.

Leer paper original

Volver a Papers IA