LookaheadKV: Desalojo de Caché KV mediante Predicción de Relevancia Futura para Inferencia Eficiente
Abstract
LookaheadKV propone un método revolucionario para la gestión de la caché de Clave-Valor (KV) en Transformers, permitiendo una extracción y desalojo de tokens de caché extremadamente rápida y precisa sin necesidad de generar el siguiente token. A medida que las longitudes de contexto crecen, la memoria de la caché KV se convierte en el principal cuello de botella. LookaheadKV utiliza una técnica de 'vistazo' (glimpsing) basada en la dinámica de las capas anteriores para predecir qué tokens serán irrelevantes para los cálculos de atención futuros. A diferencia de los métodos de desalojo HEAL o StreamingLLM, LookaheadKV no se basa solo en la antigüedad o la importancia local, sino en una proyección de la relevancia futura. Los resultados muestran una reducción del 50% en el uso de memoria de caché con una pérdida de precisión inferior al 1%, habilitando el manejo de contextos masivos en hardware con recursos de memoria limitados.