Repensando la generalización en el SFT de razonamiento | Análisis del impacto de los datos y la capacidad del modelo en el razonamiento | Guía técnica para mejorar la generalización lógica en modelos de lenguaje grande
Abstract
PROBLEMA: Existe una brecha de comprensión sobre por qué el ajuste fino supervisado (SFT) a veces falla en mejorar la generalización en tareas de razonamiento complejas, a pesar de usar datos de alta calidad. SOLUCIÓN: Los autores realizan un análisis condicional profundo que desglosa el impacto de tres pilares: el proceso de optimización, la composición de los datos y la capacidad intrínseca del modelo base. METODOLOGÍA: Evaluaron múltiples arquitecturas y datasets de razonamiento lógico y matemático, aplicando métricas de divergencia para entender cómo el modelo se desvía de su conocimiento previo durante el SFT. RESULTADOS: Encuentran que la generalización está fuertemente correlacionada con la preservación de la estructura del espacio latente del modelo original y que un exceso de especialización en el SFT perjudica la resolución de problemas fuera de distribución. RELEVANCIA: Ofrece directrices críticas para ingenieros que buscan entrenar modelos de razonamiento que no solo memoricen soluciones, sino que aprendan reglas lógicas aplicables a nuevos contextos.