Mezcla de comportamiento mediante regiones de confianza para destilación on-policy | Estabilización del aprendizaje en transferencia de conocimiento entre LLMs | Técnica para optimizar la fidelidad de modelos de lenguaje pequeños
Abstract
PROBLEMA: La destilación on-policy a menudo sufre de inestabilidad y divergencia cuando la política del estudiante se aleja demasiado de la del experto durante el entrenamiento. SOLUCIÓN: Los autores proponen un método de mezcla de comportamientos (Behavior Blending) basado en regiones de confianza que regula la divergencia entre el modelo maestro y el aprendiz. METODOLOGÍA: Implementan un mecanismo de control de proximidad que ajusta suavemente los gradientes de aprendizaje basándose en la confianza del modelo en tokens específicos. RESULTADOS: Se observa una mejora del 15% en la retención de capacidades de razonamiento complejo en modelos pequeños (menos de 7B parámetros) en comparación con KD estándar. RELEVANCIA: Crucial para desplegar modelos de alta calidad en dispositivos locales manteniendo el rendimiento de modelos masivos.