OScaR: Cuantización extrema de KV Cache basada en la Navaja de Ockham | Optimización de memoria para modelos de lenguaje de gran escala | Reducción de huella de memoria en inferencia de transformers
Abstract
PROBLEMA: El crecimiento de los requisitos de memoria del KV Cache en LLMs con ventanas de contexto largas se ha convertido en el principal cuello de botella para la inferencia eficiente y el despliegue en hardware limitado. SOLUCIÓN: Se introduce OScaR (Occam's Razor), una técnica de cuantización extrema que identifica y preserva los componentes esenciales de la información dentro del caché, descartando la redundancia ruidosa basándose en principios de parsimonia. METODOLOGÍA: El método emplea un algoritmo de selección de bits adaptativo y una estructura de cuantización no lineal que se ajusta a la distribución de los pesos en cada capa del transformer. RESULTADOS: OScaR logra reducir el tamaño del KV cache hasta en un 80% con una degradación mínima en la perplejidad del modelo, superando a métodos tradicionales de cuantización de 4 u 8 bits. RELEVANCIA: Es una pieza clave para democratizar el uso de LLMs de contexto infinito en dispositivos personales y servidores con memoria GPU limitada.