PlanBench-XL: Evaluación de planificación de largo horizonte en agentes | Cómo medir el uso de herramientas en ecosistemas a gran escala | Framework para testear agentes IA en entornos de software complejos
Abstract
PROBLEMA: Los benchmarks actuales para agentes que usan herramientas suelen limitarse a entornos pequeños con pocas opciones, lo que no refleja la complejidad de los ecosistemas de software reales donde la planificación de largo horizonte es crítica. SOLUCIÓN: El paper presenta PlanBench-XL, un entorno de evaluación masivo diseñado específicamente para medir la capacidad de los LLMs para orquestar múltiples herramientas en secuencias extensas. METODOLOGÍA: Se implementa un framework basado en grafos de dependencias de herramientas, simulando escenarios empresariales con cientos de APIs interconectadas donde el agente debe navegar restricciones lógicas. RESULTADOS: Los experimentos demuestran que incluso los modelos más avanzados sufren una degradación significativa del rendimiento a medida que aumenta el horizonte de planificación y el número de herramientas disponibles. RELEVANCIA: Es fundamental para el desarrollo de agentes autónomos capaces de operar en entornos de producción complejos y sistemas operativos.