Cuantización de KV-Cache consciente de RoPE para eficiencia en LLMs | Optimización de memoria en inferencia mediante asignación de bits dinámica | Técnica para contextos largos en modelos de lenguaje con baja memoria
Abstract
PROBLEMA: El almacenamiento de la caché de Claves y Valores (KV-Cache) es el principal cuello de botella de memoria al procesar contextos largos en Transformers, y las técnicas de cuantización uniformes suelen degradar la precisión del modelo debido a las incrustaciones de posición rotatoria (RoPE). SOLUCIÓN: Este paper propone una asignación de bits consciente de RoPE (RoPE-Aware Bit Allocation), que asigna dinámicamente la precisión de los bits según la importancia semántica y posicional de cada token en la caché. METODOLOGÍA: Se analiza teóricamente el impacto de RoPE en la distribución de valores de activación y se diseña un esquema de cuantización no uniforme que protege las dimensiones críticas para el razonamiento de largo alcance. RESULTADOS: Logra una reducción del 50% en el tamaño de la KV-Cache con una pérdida de precisión inferior al 1%, superando significativamente a métodos de cuantización de 4 u 8 bits estándar. RELEVANCIA: Vital para permitir el despliegue de modelos de lenguaje con ventanas de contexto masivas en hardware con recursos limitados.