Destilación On-Policy para la Compresión de Habilidades de Razonamiento en Modelos de Lenguaje
Abstract
Este trabajo explora la 'On-Policy Self-Distillation' como una técnica para comprimir las capacidades de razonamiento de modelos grandes en versiones más pequeñas y rápidas, sin la pérdida drástica de precisión que suele ocurrir con la destilación estándar. El método se enfoca en preservar las cadenas de pensamiento (Chain-of-Thought) generadas internamente, obligando al modelo 'estudiante' a imitar el proceso de razonamiento del 'profesor' en una configuración on-policy (usando sus propias distribuciones de salida durante el entrenamiento). Esto es especialmente relevante para aplicaciones de agentes que requieren baja latencia y alta capacidad lógica, permitiendo que modelos de pocos parámetros ejecuten tareas de inferencia compleja que antes requerían infraestructuras de gran escala.