14 de abril de 2026

Manual sobre Sumideros de Atención en Transformers | Cómo optimizar la memoria en modelos de contexto largo | Técnicas para evitar la degradación de atención en inferencia continua

Attention Sinksumidero de atenciónKV Cachelong-context LLMseficiencia de inferenciaStreamingLLMarquitectura transformer

Abstract

PROBLEMA: Los modelos basados en Transformer presentan una acumulación atípica de puntuaciones de atención en los tokens iniciales (especialmente el primero), fenómeno conocido como 'Attention Sink'. Esto genera ineficiencias en el manejo de contextos largos y problemas al implementar cachés KV de ventana deslizante, donde la eliminación del primer token degrada drásticamente el rendimiento. SOLUCIÓN: Este estudio exhaustivo categoriza las causas del sumidero de atención como una combinación de la función Softmax y la necesidad del modelo de un 'registro' para depositar atención innecesaria. Se proponen y analizan técnicas de mitigación, incluyendo el uso de tokens dedicados y modificaciones en el entrenamiento. METODOLOGÍA: Los autores realizan un survey sistemático de la literatura reciente, evaluando métodos de utilización, interpretación y algoritmos de mitigación en diversos benchmarks de lenguaje. RESULTADOS: Se identifican las estrategias más robustas para mantener la estabilidad del modelo en streaming de texto infinito y se demuestra que el pre-entrenamiento con un token específico de 'sink' elimina la dependencia del primer token de contenido. RELEVANCIA: Es fundamental para optimizar la inferencia en sistemas RAG y agentes que requieren procesar flujos continuos de datos sin reentrenamiento costoso.

Leer paper original

Volver a Papers IA