26 de abril de 2026

Destilación de Políticas Híbrida para Modelos de Lenguaje Grande | Optimización del tamaño de LLMs mediante transferencia de conocimiento de política | Técnica para comprimir modelos de IA manteniendo su capacidad de razonamiento lógico

Policy Distillationdestilación de políticasLLM optimizationmodelo maestro-estudiantehybrid learningaprendizaje híbridoefficiency

Abstract

PROBLEMA: La destilación convencional de modelos de lenguaje suele ser ineficiente o pierde matices críticos del razonamiento del modelo maestro cuando se transfiere a modelos más pequeños. SOLUCIÓN: Propone una técnica de Destilación de Políticas Híbrida (Hybrid Policy Distillation) que combina señales de probabilidad de tokens con objetivos de alineación de comportamiento para capturar tanto la precisión como la intención. METODOLOGÍA: Se entrena un modelo estudiante utilizando una función de pérdida que pondera la divergencia KL tradicional y la recompensa de política obtenida del modelo maestro en entornos interactivos. RESULTADOS: Los modelos resultantes mantienen un rendimiento superior en benchmarks de razonamiento lógico comparados con técnicas de destilación estándar, reduciendo el tamaño del modelo sin sacrificar capacidades críticas. RELEVANCIA: Esta técnica es clave para desplegar modelos altamente capaces en dispositivos con recursos limitados o reducir costes de inferencia en la nube.

Leer paper original

Volver a Papers IA