IndexCache: Aceleración de la Atención Dispersa mediante la Reutilización de Índices entre Capas
sparse attentionindex reuseinferencia eficienteLLM optimizationkv cache
Abstract
IndexCache es una técnica de optimización técnica que acelera los mecanismos de 'Sparse Attention' mediante la reutilización de índices a través de las diferentes capas del transformador. Los autores demuestran que los patrones de atención en las capas superiores son altamente redundantes con respecto a las inferiores, lo que permite computar los índices de atención una sola vez y propagarlos, reduciendo drásticamente el overhead computacional. Este método mejora el throughput de inferencia sin degradar significativamente la precisión del modelo, facilitando el despliegue de modelos de gran contexto en hardware limitado. Es una técnica transferible a cualquier arquitectura basada en Sparse Attention.