Ir al contenido principal

IndexCache: Aceleración de Atención Dispersa mediante el Reuso de Índices entre Capas en Transformers

Sparse AttentionCross-Layer Index ReuseKV Cache OptimizationEfficiencyLLM Inference

Abstract

IndexCache es una técnica innovadora diseñada para acelerar la inferencia en LLMs mediante el reuso de índices de atención dispersa entre capas. Los autores observan que los patrones de atención en las capas profundas de los Transformers tienden a ser altamente redundantes. IndexCache capitaliza esta observación almacenando en caché los índices de los tokens más relevantes identificados en capas anteriores y reutilizándolos para guiar la atención dispersa en capas posteriores. Esto reduce significativamente la carga computacional de calcular matrices de atención completas y la latencia generada por el acceso a la KV-Cache. El método demuestra mantener la precisión del modelo casi intacta mientras ofrece un incremento sustancial en el throughput, siendo especialmente efectivo para modelos de contexto largo que operan en hardware con restricciones de ancho de banda de memoria.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h