Framework para el ajuste fino de modelos de razonamiento | Cooperación docente-alumno para síntesis de datos SFT | Cómo mejorar la lógica en LLMs mediante datos consistentes con el estudiante
Abstract
PROBLEMA: El ajuste fino supervisado (SFT) de modelos de razonamiento a menudo falla cuando los datos de entrenamiento no coinciden con las capacidades o estilos de inferencia intrínsecos del modelo estudiante. SOLUCIÓN: Se propone un framework de cooperación 'Profesor-Estudiante' diseñado específicamente para sintetizar datos de entrenamiento que sean consistentes con la arquitectura y el comportamiento del modelo estudiante. METODOLOGÍA: El profesor genera múltiples rutas de razonamiento y el estudiante selecciona o refina aquellas que son más coherentes con su propia estructura lógica durante el proceso de aprendizaje. RESULTADOS: Este método mejora significativamente la capacidad de razonamiento lógico y matemático del modelo resultante en comparación con métodos SFT tradicionales que usan datos externos genéricos. RELEVANCIA: Optimiza la transferencia de conocimiento hacia modelos más pequeños o específicos, asegurando que el razonamiento sea "natural" para el modelo.