Ir al contenido principal

OScaR: Cuantización extrema del KV Cache para LLMs | Optimización de memoria en modelos de lenguaje mediante simplificación de caché | Cómo reducir la VRAM necesaria para contextos largos en Transformers

KV Cache Quantizationcuantización de caché KVExtreme Compressioncompresión extrema de LLMsOccams Razoreficiencia en inferenciadeep learning optimization

Abstract

PROBLEMA: El crecimiento masivo del KV Cache (Key-Value Cache) en modelos Transformer limita seriamente la longitud del contexto y el rendimiento de la inferencia debido al alto consumo de memoria VRAM. SOLUCIÓN: Los autores proponen OScaR, un método de cuantización extrema inspirado en la Navaja de Ockham que simplifica la representación del caché sin sacrificar la precisión semántica. METODOLOGÍA: OScaR utiliza un esquema de cuantización selectiva que identifica qué componentes del caché son redundantes o pueden representarse con muy pocos bits (ultra-low precision) basándose en su impacto en la atención. RESULTADOS: El método logra reducir el KV Cache hasta en un 4x-8x comparado con FP16, manteniendo una degradación de la perplejidad casi nula en benchmarks de contexto largo. RELEVANCIA: Este avance permite ejecutar modelos de lenguaje con ventanas de contexto masivas en hardware comercial limitado, optimizando el despliegue en producción.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h