Amnesia de Atención en LLMs Híbridos: Fallos en memoria tras ajuste de razonamiento y su solución | Cómo evitar que el entrenamiento CoT degrade la recuperación de contexto largo | Equilibrio entre razonamiento profundo y memoria de largo alcance en modelos de lenguaje
Abstract
PROBLEMA: El ajuste fino centrado en Chain-of-Thought (CoT) para mejorar el razonamiento a menudo provoca 'Attention Amnesia', donde el modelo pierde su capacidad de recuperar información de contextos muy largos. SOLUCIÓN: El paper analiza por qué ocurre este fenómeno en arquitecturas híbridas y propone una técnica de mitigación para preservar tanto la capacidad de razonamiento profundo como la fidelidad de la memoria. METODOLOGÍA: Utilizan benchmarks de "aguja en un pajar" (Needle-in-a-Haystack) modificados para evaluar el impacto del entrenamiento CoT en la atención y proponen un esquema de entrenamiento balanceado. RESULTADOS: La solución propuesta permite mantener el rendimiento en razonamiento lógico sin degradar la capacidad de recuperación en contextos de más de 128k tokens. RELEVANCIA: Crucial para sistemas RAG que requieren procesar documentos extensos mientras realizan razonamientos complejos sobre ellos.