Optimización Retrospectiva para Agentes LLM mediante Auto-Preferencia | Mejora de agentes de IA analizando éxitos y fracasos pasados | Técnica RHO para el refinamiento de trayectorias de decisión en modelos de lenguaje
Abstract
PROBLEMA: Los agentes de IA frecuentemente fallan en tareas de pasos múltiples debido a la acumulación de errores en sus trayectorias, y el feedback humano es costoso de escalar. SOLUCIÓN: Se propone 'Retrospective Harness Optimization' (RHO), un método que mejora los agentes permitiéndoles aprender de sus propios rollouts mediante mecanismos de auto-preferencia sobre las trayectorias ejecutadas. METODOLOGÍA: El sistema genera múltiples intentos para una tarea, evalúa retrospectivamente cuál fue más exitosa o eficiente y ajusta la política del modelo para favorecer esos patrones de comportamiento mediante un arnés de optimización. RESULTADOS: RHO supera a los métodos de fine-tuning estándar en entornos de computación y navegación web, demostrando una robustez superior ante cambios en el entorno. RELEVANCIA: Esta técnica es clave para el desarrollo de agentes autónomos que se "auto-corrijan" analizando su pasado operativo.