Transferencia Efectiva de Atención Completa a Dispersa en Pocos Pasos | Cómo optimizar la eficiencia de LLMs mediante atención dispersa sin reentrenamiento masivo | Técnica para acelerar inferencia de transformers preservando la calidad del contexto
Abstract
PROBLEMA: La atención completa (Full Attention) ofrece la mejor calidad pero su costo computacional escala de forma cuadrática, lo que prohíbe el uso de contextos extremadamente largos. Las arquitecturas de atención dispersa (Sparse) son eficientes pero suelen requerir un pre-entrenamiento masivo desde cero para igualar el desempeño de los modelos densos. SOLUCIÓN: Los investigadores presentan un método de transferencia radical que permite convertir un modelo de atención completa en uno de atención dispersa en menos de cien pasos de entrenamiento. La técnica se basa en la preservación de la dinámica espectral de las cabezas de atención originales, mapeándolas eficientemente a patrones de acceso dispersos. METODOLOGÍA: Utilizan una técnica de destilación de gradiente acelerada aplicada a los pesos de las proyecciones de query/key. Los experimentos se realizaron sobre modelos de la familia Llama y Mistral. RESULTADOS: El modelo "convertido" retiene el 98% del rendimiento original en comprensión de texto mientras reduce la latencia de inferencia en un 40% y el uso de memoria de activación en un 60%. RELEVANCIA: Este avance permite democratizar el uso de modelos de contexto largo, permitiendo a desarrolladores adaptar modelos existentes a arquitecturas eficientes con un costo de cómputo marginal.