Extensión eficiente de contexto largo mediante anclaje terminal | EndPrompt: técnica para manejar secuencias ultra-largas en LLMs | Cómo estabilizar la atención en contextos de larga distancia en Transformers
Abstract
PROBLEMA: La extensión del contexto en LLMs a cientos de miles de tokens es computacionalmente costosa y suele degradar la atención en los tokens finales de la secuencia. SOLUCIÓN: El paper presenta 'EndPrompt', una técnica de anclaje terminal que utiliza tokens especiales al final del prompt para estabilizar la atención y preservar el flujo de información a largas distancias. METODOLOGÍA: Re-estructuran el mecanismo de atención para priorizar 'anclas' de contexto que permiten recuperar información lejana sin recalcular todo el KV cache de forma exhaustiva. RESULTADOS: Logran extender ventanas de contexto efectivas hasta 512k tokens con un mínimo overhead y manteniendo un rendimiento superior en el benchmark 'Needle In A Haystack'. RELEVANCIA: Clave para el desarrollo de sistemas de RAG que procesan múltiples documentos extensos de una sola vez.