Destilación híbrida de políticas para modelos de lenguaje grandes | Transferencia efectiva de capacidades de razonamiento de modelos grandes a pequeños | Cómo entrenar modelos ligeros con la lógica de modelos de razonamiento complejos
Abstract
PROBLEMA: Los modelos LLM de razonamiento (como la serie R1) son potentes pero costosos de ejecutar; la destilación tradicional a menudo pierde las capacidades de razonamiento paso-a-paso del modelo profesor. SOLUCIÓN: El paper introduce la "Destilación de Política Híbrida" (HPD), que combina la destilación de la salida final con la alineación de las trazas de pensamiento (CoT) y las distribuciones de probabilidad internas. METODOLOGÍA: Utilizan una función de pérdida dual que penaliza tanto la discrepancia en la respuesta final como la divergencia en el proceso de "reflexión" del modelo. RESULTADOS: Los modelos pequeños destilados mediante HPD superan a sus contrapartes entrenadas con SFT convencional en un 15% en benchmarks matemáticos y de codificación. RELEVANCIA: Es un avance clave para democratizar el uso de capacidades de razonamiento de alto nivel en dispositivos con recursos limitados (edge computing).