25 de abril de 2026

Destilación híbrida de políticas para modelos de lenguaje grandes | Transferencia efectiva de capacidades de razonamiento de modelos grandes a pequeños | Cómo entrenar modelos ligeros con la lógica de modelos de razonamiento complejos

Policy Distillation GuadalajaraLLM Compressiondestilación de conocimiento IAalineación de modelos de lenguajetransferencia de políticas de razonamientomodelos de razonamiento lógico IA

Abstract

PROBLEMA: Los modelos LLM de razonamiento (como la serie R1) son potentes pero costosos de ejecutar; la destilación tradicional a menudo pierde las capacidades de razonamiento paso-a-paso del modelo profesor. SOLUCIÓN: El paper introduce la "Destilación de Política Híbrida" (HPD), que combina la destilación de la salida final con la alineación de las trazas de pensamiento (CoT) y las distribuciones de probabilidad internas. METODOLOGÍA: Utilizan una función de pérdida dual que penaliza tanto la discrepancia en la respuesta final como la divergencia en el proceso de "reflexión" del modelo. RESULTADOS: Los modelos pequeños destilados mediante HPD superan a sus contrapartes entrenadas con SFT convencional en un 15% en benchmarks matemáticos y de codificación. RELEVANCIA: Es un avance clave para democratizar el uso de capacidades de razonamiento de alto nivel en dispositivos con recursos limitados (edge computing).

Leer paper original

Volver a Papers IA