Hindsight Credit Assignment: Optimización de la asignación de crédito en agentes LLM de largo horizonte
Abstract
Uno de los desafíos más persistentes en el despliegue de agentes LLM es la asignación de crédito en trayectorias largas: ¿qué acción específica de hace 50 pasos causó el éxito o fracaso actual? Este paper introduce un método de 'Hindsight Credit Assignment' diseñado específicamente para agentes de largo horizonte. El sistema implementa una red de evaluación que analiza de forma retrospectiva la cadena de decisiones, asignando pesos de importancia a cada paso intermedio basándose en su contribución causal al resultado final. Mediante el uso de esta técnica, los agentes pueden aprender de interacciones complejas de manera mucho más eficiente que con los métodos de RL estándar. Los experimentos en entornos de planificación jerárquica muestran que esta técnica reduce significativamente la cantidad de rollouts necesarios para que el agente converja a una política óptima, siendo vital para sistemas que operan en mundos dinámicos y extensos.