Destilación de Políticas Híbrida para Modelos de Lenguaje Grande | Optimización del tamaño de LLMs mediante transferencia de conocimiento de política | Técnica para comprimir modelos de IA manteniendo su capacidad de razonamiento lógico
Abstract
PROBLEMA: La destilación convencional de modelos de lenguaje suele ser ineficiente o pierde matices críticos del razonamiento del modelo maestro cuando se transfiere a modelos más pequeños. SOLUCIÓN: Propone una técnica de Destilación de Políticas Híbrida (Hybrid Policy Distillation) que combina señales de probabilidad de tokens con objetivos de alineación de comportamiento para capturar tanto la precisión como la intención. METODOLOGÍA: Se entrena un modelo estudiante utilizando una función de pérdida que pondera la divergencia KL tradicional y la recompensa de política obtenida del modelo maestro en entornos interactivos. RESULTADOS: Los modelos resultantes mantienen un rendimiento superior en benchmarks de razonamiento lógico comparados con técnicas de destilación estándar, reduciendo el tamaño del modelo sin sacrificar capacidades críticas. RELEVANCIA: Esta técnica es clave para desplegar modelos altamente capaces en dispositivos con recursos limitados o reducir costes de inferencia en la nube.