8 de junio de 2026

Benchmarking de Replanificación Dinámica y Recuperación de Anomalías en Agentes LLM | Evaluación de agentes de IA ante el fallo de herramientas externas | Robustez de sistemas agénticos frente a errores de ejecución y APIs

Tool Use failurefallo de herramientasDynamic Replanning Transitreplanificación dinámicaAnomaly Recoveryrecuperación de erroresAgent Benchmarkingrobustez de agentes

Abstract

PROBLEMA: La mayoría de los benchmarks actuales para agentes se centran en el éxito de la tarea bajo condiciones ideales, ignorando cómo reaccionan los agentes cuando las herramientas externas fallan o devuelven resultados inesperados. SOLUCIÓN: Introducen un nuevo benchmark diseñado específicamente para evaluar la capacidad de replanificación dinámica y recuperación de anomalías en agentes basados en LLM. METODOLOGÍA: Crean escenarios controlados donde las herramientas inyectan errores sintácticos, semánticos y de red, midiendo la capacidad del agente para diagnosticar el problema y pivotar hacia una solución alternativa. RESULTADOS: Los resultados muestran una caída significativa en el rendimiento de los modelos actuales, destacando que incluso los LLMs más avanzados tienen dificultades para recuperarse de errores de herramientas sin prompts de recuperación específicos. RELEVANCIA: Este trabajo es crítico para el despliegue de agentes en entornos de producción del mundo real donde la fiabilidad de las APIs no está garantizada.

Leer paper original

Volver a Papers IA