6 de junio de 2026

AdaPlanBench: Evaluación de planificación adaptativa en agentes LLM | Benchmark para medir la capacidad de respuesta de agentes IA ante restricciones | Cómo probar la flexibilidad de razonamiento en modelos de lenguaje ante cambios del entorno

Adaptive Planningplanificación adaptativaLLM Agentsagentes autónomosConstraint Satisfactionrestricciones de entornoBenchmark

Abstract

PROBLEMA: Los benchmarks actuales para agentes LLM a menudo evalúan la planificación en entornos estáticos, ignorando la necesidad de replanificar cuando surgen restricciones inesperadas del mundo real o cambios en las demandas del usuario. SOLUCIÓN: Se propone AdaPlanBench, un nuevo benchmark diseñado específicamente para medir la "planificación adaptativa", donde los agentes deben ajustar sus estrategias ante obstáculos dinámicos y reglas cambiantes del entorno. METODOLOGÍA: El sistema utiliza un motor de simulación con 15 dominios distintos y miles de tareas que incluyen restricciones físicas (mundo) y lógicas (usuario), obligando al agente a realizar ciclos de retroalimentación y corrección. RESULTADOS: Las pruebas revelan que incluso los modelos más avanzados como GPT-4o fallan frecuentemente al mantener la consistencia lógica bajo restricciones acumulativas, subrayando la brecha en el razonamiento de largo horizonte. RELEVANCIA: Es crucial para el desarrollo de robots domésticos y asistentes industriales que operan en mundos abiertos y no predecibles.

Leer paper original

Volver a Papers IA