LongTraceRL: Razonamiento de contexto largo mediante trayectorias de agentes | Cómo entrenar LLMs para tareas de razonamiento complejo y extenso | Uso de recompensas por rúbrica para mejorar la planificación en agentes IA
Abstract
PROBLEMA: Los modelos de lenguaje actuales a menudo fallan en tareas de razonamiento que requieren procesar contextos extremadamente largos y múltiples pasos de inferencia interconectados, perdiendo la coherencia o el objetivo final. SOLUCIÓN: El paper presenta LongTraceRL, un marco de trabajo que entrena modelos para mejorar su razonamiento en contextos largos utilizando trayectorias generadas por agentes de búsqueda. Utiliza un sistema de recompensas basado en rúbricas (Rubric Rewards) que evalúa no solo el resultado final, sino también la calidad y lógica de los pasos intermedios. METODOLOGÍA: Se recolectaron trayectorias complejas de resolución de problemas y se aplicó aprendizaje por refuerzo (RL) para alinear el comportamiento del modelo con los procesos de pensamiento más eficientes y lógicos detallados en las rúbricas. RESULTADOS: Los experimentos demuestran que LongTraceRL supera significativamente a los métodos de fine-tuning supervisado (SFT) y a otros enfoques de RL estándar en benchmarks de razonamiento de larga duración y tareas de planificación compleja. RELEVANCIA: Es fundamental para el desarrollo de agentes autónomos que deben operar en entornos con gran cantidad de información y dependencias temporales extensas.