4 de julio de 2026

AgenticSTS: Banco de pruebas de memoria acotada para agentes LLM de horizonte largo | Evaluación de la eficiencia de memoria en agentes autónomos | Cómo medir el rendimiento de agentes de inteligencia artificial en tareas extensas

AgenticSTSLong-Horizon Agentsbounded memoryagentes de IAmemoria acotadarazonamiento de largo plazoLLM benchmark

Abstract

PROBLEMA: Los benchmarks actuales para agentes no suelen considerar las limitaciones de memoria física o de contexto, lo que no refleja el despliegue real donde el horizonte de las tareas es largo pero los recursos son finitos. SOLUCIÓN: Presentan AgenticSTS, un entorno de prueba diseñado específicamente para evaluar agentes de IA en tareas de horizonte largo bajo restricciones de memoria acotada. METODOLOGÍA: El benchmark utiliza una serie de tareas interconectadas que requieren que el agente decida qué información descartar y qué recuperar para completar objetivos complejos. RESULTADOS: Los experimentos demuestran que incluso los LLMs más avanzados fallan significativamente cuando no pueden retener todo el historial, subrayando la necesidad de mejores estrategias de gestión de memoria. RELEVANCIA: Este trabajo es crítico para el diseño de agentes robustos que operen en aplicaciones de producción con contextos de ventana limitados.

Leer paper original

Volver a Papers IA