30 de junio de 2026

ReFreeKV: Threshold-Free KV Cache Compression for LLMs | Optimización dinámica de memoria en transformadores de contexto largo | Cómo reducir el uso de VRAM en inferencia de modelos de lenguaje sin pérdida de calidad

KV Cache Compressioncompresión de caché KVThreshold-freesin umbralesReFreeKVinference optimizationoptimización de inferencia

Abstract

PROBLEMA: El almacenamiento de la caché Key-Value (KV) es el principal cuello de botella de memoria en la inferencia de LLMs con contextos largos, y los métodos actuales dependen de umbrales manuales que no se adaptan a todas las capas o modelos. SOLUCIÓN: ReFreeKV propone un método de compresión de caché KV 'libre de umbrales' (threshold-free) que identifica dinámicamente los tokens menos informativos para su eliminación sin necesidad de calibración previa. METODOLOGÍA: Utilizan una métrica de importancia adaptativa basada en la atención acumulada y la relevancia semántica, permitiendo una reducción agresiva del uso de memoria manteniendo la precisión. RESULTADOS: Logran reducciones de hasta un 70% en el tamaño de la caché con una degradación mínima de la perplejidad, permitiendo el despliegue de modelos grandes en GPUs con menos memoria. RELEVANCIA: Esencial para sistemas RAG y agentes que requieren manejar ventanas de contexto extremadamente amplias de manera económica.

Leer paper original

Volver a Papers IA