3 de julio de 2026

Morfismo hacia modelos de atención híbrida | Cómo optimizar la memoria y velocidad de LLMs mediante hibridación de atención | Estrategias para transformar arquitecturas de transformers de densas a híbridas

Hybrid AttentionSliding Window AttentionLinear Attentionarquitecturas LLM 2026eficiencia de inferenciaTransformers híbridosatención densa y dispersa

Abstract

PROBLEMA: La atención cuadrática de los Transformers estándar es costosa para contextos largos, pero las alternativas (atención lineal o dispersa) a menudo sacrifican calidad en tareas de razonamiento corto. SOLUCIÓN: El paper propone un método de 'morfismo' que permite transformar progresivamente modelos puramente densos en arquitecturas híbridas (mezclando atención deslizante, lineal y densa) durante el entrenamiento o fine-tuning. METODOLOGÍA: Desarrollan una estrategia de programación de pesos que decide qué capas deben permanecer densas y cuáles pueden ser sustituidas por mecanismos más ligeros basándose en la importancia de la información. RESULTADOS: Consiguen reducir el uso de memoria KV en un 60% manteniendo el 98% del rendimiento en benchmarks de lenguaje general (MMLU). RELEVANCIA: Permite la creación de modelos que son extremadamente rápidos para inferencia en tiempo real sin perder las capacidades cognitivas de los modelos más grandes.

Leer paper original

Volver a Papers IA