Co-evolución de agentes de decisión y bancos de habilidades en LLMs | Mejora de tareas de largo plazo mediante aprendizaje iterativo de habilidades | Cómo crear agentes IA que aprenden y refinan sus propias herramientas
Abstract
PROBLEMA: Los agentes basados en LLM a menudo fallan en tareas de horizonte largo (long-horizon tasks) debido a la degradación del razonamiento en pasos múltiples y la falta de habilidades reutilizables especializadas. SOLUCIÓN: El paper presenta un marco de co-evolución donde dos componentes, un Agente de Decisión y un Agente de Banco de Habilidades (Skill Bank), se optimizan mutuamente de forma iterativa. El Agente de Decisión aprende a descomponer tareas complejas mientras que el Skill Bank refina las herramientas atómicas disponibles. METODOLOGÍA: Utilizan un proceso de optimización dual donde el feedback de la ejecución de tareas se utiliza para podar habilidades ineficientes y actualizar las políticas de selección de acciones mediante RLAIF. RESULTADOS: Los experimentos en entornos complejos de simulación demuestran una tasa de éxito un 35% superior a los baselines estáticos, logrando una mayor adaptabilidad ante cambios en los objetivos de la tarea. RELEVANCIA: Esta investigación es fundamental para el desarrollo de agentes autónomos capaces de operar de forma independiente en entornos de software y robótica durante periodos prolongados.