TriAttention: Razonamiento eficiente en contextos largos mediante compresión trigonométrica de KV | Técnica de NVIDIA para optimizar el uso de memoria en modelos de lenguaje | Cómo extender la ventana de contexto sin aumentar proporcionalmente la VRAM
Abstract
PROBLEMA: El crecimiento lineal del caché de Claves-Valores (KV) en secuencias largas limita la capacidad de razonamiento de los LLMs debido a restricciones de memoria VRAM. SOLUCIÓN: Se introduce TriAttention, un método que utiliza compresión trigonométrica del caché KV para retener información semántica crítica reduciendo drásticamente el uso de memoria. METODOLOGÍA: Utilizan funciones trigonométricas para proyectar y resumir las activaciones del historial de atención, permitiendo una reconstrucción aproximada de alta fidelidad durante la inferencia. RESULTADOS: Logran reducciones significativas en la huella de memoria (hasta un 40%) manteniendo el rendimiento en benchmarks de contexto largo como Needle In A Haystack. RELEVANCIA: Esta técnica es clave para habilitar agentes de IA que manejen repositorios enteros de código o documentos extensos sin colapsar la infraestructura de cómputo.