TIDE: Destilación Trans-Arquitectura para LLMs de Difusión | Cómo optimizar modelos de difusión lingüística para producción | Transferencia de conocimiento en modelos generativos de nube a local
Abstract
PROBLEMA: Los modelos de lenguaje basados en difusión (Diffusion LLMs) ofrecen ventajas en generación no auto-regresiva, pero sus arquitecturas suelen ser incompatibles con los métodos de destilación tradicionales diseñados para Transformers. SOLUCIÓN: TIDE es un nuevo marco de destilación trans-arquitectura que permite transferir capacidades de razonamiento y coherencia desde modelos de difusión complejos a estructuras más ligeras y eficientes. METODOLOGÍA: Utilizan una función de pérdida de alineamiento de trayectoria que iguala el proceso de eliminación de ruido (denoising) entre el modelo profesor (difusión) y el alumno. RESULTADOS: El método logra preservar la calidad de generación del modelo original con solo una fracción de los parámetros, superando a la destilación de conocimiento convencional. RELEVANCIA: Crucial para desplegar la próxima generación de modelos generativos no lineales en dispositivos con recursos limitados.