KV Packet: Caché de KV independiente del contexto para LLMs | Optimización de inferencia sin recomputación de caché | Técnica para reducir latencia en modelos de lenguaje de gran escala
Abstract
PROBLEMA: La gestión del caché de Clave-Valor (KV) en modelos de lenguaje de contexto largo introduce overheads masivos y latencia debido a la necesidad de recomputación frecuente cuando cambian los prefijos del sistema. SOLUCIÓN: El paper presenta 'KV Packet', una técnica de almacenamiento en caché de KV que es independiente del contexto y no requiere recomputación, optimizando el rendimiento de inferencia. METODOLOGÍA: Utiliza una estructura de datos empaquetada que desacopla la información semántica del token de su posición relativa, permitiendo la reutilización global del caché en diferentes consultas y contextos. RESULTADOS: Se observa una reducción drástica de la latencia en el primer token (TTFT) y un aumento en el rendimiento de tokens por segundo, especialmente en aplicaciones de RAG con múltiples documentos. RELEVANCIA: Es una innovación clave para el despliegue de modelos de lenguaje en producción que manejan contextos dinámicos y extensos con bajo costo.