Ir al contenido principal

IndexCache: Aceleración de la Atención Dispersa mediante la Reutilización de Índices entre Capas

sparse attentionindex reuseinferencia eficienteLLM optimizationkv cache

Abstract

IndexCache es una técnica de optimización técnica que acelera los mecanismos de 'Sparse Attention' mediante la reutilización de índices a través de las diferentes capas del transformador. Los autores demuestran que los patrones de atención en las capas superiores son altamente redundantes con respecto a las inferiores, lo que permite computar los índices de atención una sola vez y propagarlos, reduciendo drásticamente el overhead computacional. Este método mejora el throughput de inferencia sin degradar significativamente la precisión del modelo, facilitando el despliegue de modelos de gran contexto en hardware limitado. Es una técnica transferible a cualquier arquitectura basada en Sparse Attention.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h