Morfismo hacia modelos de atención híbrida | Cómo optimizar la memoria y velocidad de LLMs mediante hibridación de atención | Estrategias para transformar arquitecturas de transformers de densas a híbridas
Abstract
PROBLEMA: La atención cuadrática de los Transformers estándar es costosa para contextos largos, pero las alternativas (atención lineal o dispersa) a menudo sacrifican calidad en tareas de razonamiento corto. SOLUCIÓN: El paper propone un método de 'morfismo' que permite transformar progresivamente modelos puramente densos en arquitecturas híbridas (mezclando atención deslizante, lineal y densa) durante el entrenamiento o fine-tuning. METODOLOGÍA: Desarrollan una estrategia de programación de pesos que decide qué capas deben permanecer densas y cuáles pueden ser sustituidas por mecanismos más ligeros basándose en la importancia de la información. RESULTADOS: Consiguen reducir el uso de memoria KV en un 60% manteniendo el 98% del rendimiento en benchmarks de lenguaje general (MMLU). RELEVANCIA: Permite la creación de modelos que son extremadamente rápidos para inferencia en tiempo real sin perder las capacidades cognitivas de los modelos más grandes.