Aprendizaje de recuperación a partir de trayectorias de agentes | Cómo optimizar la búsqueda de información para agentes autónomos | Sistema RAG mejorado mediante el historial de acciones del agente de IA
Abstract
PROBLEMA: Los sistemas de recuperación tradicionales (RAG) no están optimizados para las necesidades específicas de los agentes autónomos, que requieren información contextual basada en sus pasos previos de razonamiento. SOLUCIÓN: El paper propone LTRR (Learning to Retrieve from Agent Trajectories), un método que enseña al modelo de recuperación a priorizar información útil basándose en el historial completo de la trayectoria del agente. METODOLOGÍA: Se entrena un recuperador denso utilizando señales de recompensa derivadas del éxito final de las acciones del agente, alineando la búsqueda de documentos con la resolución efectiva de tareas. RESULTADOS: El método mejora significativamente la eficiencia y el éxito de los agentes en benchmarks de navegación web y uso de herramientas complejas, reduciendo la carga de tokens irrelevantes. RELEVANCIA: Representa un avance clave hacia la creación de agentes con memoria episódica funcional y recuperación de largo alcance.