Razonamiento estructurado para QA sobre colecciones masivas de documentos | Superando los límites del contexto largo en LLMs mediante estructuras de datos | Cómo procesar sets de documentos gigantes manteniendo la precisión del razonamiento
Abstract
PROBLEMA: Incluso con el aumento de las ventanas de contexto (como 1M tokens), los LLMs fallan al sintetizar información dispersa a través de miles de documentos diferentes debido a la dilución de la atención. SOLUCIÓN: El estudio argumenta que el contexto largo no es la solución definitiva y propone un método de 'Razonamiento Estructurado' que descompone las preguntas en grafos de dependencias entre documentos. METODOLOGÍA: Utilizan un enfoque de 'map-reduce' mejorado donde los nodos intermedios mantienen estructuras de datos ricas en lugar de solo texto resumido, aplicado sobre benchmarks de QA de múltiples pasos. RESULTADOS: El método supera a los modelos de contexto de 128k y 1M de tokens en precisión de respuesta y fidelidad a la fuente, reduciendo el ruido informático. RELEVANCIA: Redefine la estrategia para sistemas de búsqueda y respuesta documental en dominios legales, científicos o médicos donde la exhaustividad es vital.