IndexCache: Aceleración de la Atención Dispersa mediante la Reutilización de Índices entre Capas
Sparse AttentionCross-Layer ReuseIndexCacheInference AccelerationKV Cache Optimization
Abstract
IndexCache es una técnica de optimización de la atención dispersa (Sparse Attention) que aprovecha la redundancia estructural entre las capas de los Transformers. Los autores descubren que los índices de los tokens seleccionados por los mecanismos de atención 'top-k' tienden a ser muy similares en capas adyacentes. Al reutilizar estos índices mediante un sistema de caché entre capas, IndexCache elimina la necesidad de recalcular los mapas de atención completos, reduciendo significativamente el tiempo de inferencia y el uso de memoria sin sacrificar la precisión del modelo. Este avance es crítico para el despliegue de LLMs de contexto largo en hardware con recursos limitados y para optimizar el rendimiento de sistemas RAG en producción.