3 de julio de 2026

AgenticSTS: Banco de pruebas de memoria acotada para agentes de largo horizonte | Evaluación de la gestión de memoria en agentes autónomos complejos | Cómo miden los LLMs su capacidad de planificación a largo plazo

Long-horizon agentsBounded-memoryAgentes IALLM agentsplanificación estratégicaAgenticSTSbenchmark de agentes

Abstract

PROBLEMA: Los agentes basados en LLM suelen fallar en tareas de 'horizonte largo' debido al crecimiento descontrolado del contexto o al olvido de objetivos iniciales. Los benchmarks actuales no evalúan adecuadamente cómo los agentes gestionan una memoria limitada (bounded-memory) en entornos complejos. SOLUCIÓN: Presentan AgenticSTS (Space-Time Simulation), un entorno de prueba diseñado específicamente para medir la capacidad de los agentes de planificar y actuar durante largos periodos bajo restricciones estrictas de memoria. METODOLOGÍA: Utilizan simulaciones que requieren que el agente priorice información, sintetice conocimientos previos y descarte datos irrelevantes para cumplir objetivos multidimensionales. RESULTADOS: Los experimentos revelan que incluso los modelos más avanzados (GPT-5/Claude 3.5) sufren degradación de rendimiento severa cuando la memoria disponible es menor al 20% de la longitud total del episodio, identificando cuellos de botella en la síntesis de estados. RELEVANCIA: Crucial para el desarrollo de agentes autónomos que deben operar durante días o semanas sin exceder los límites de cómputo o ventana de contexto.

Leer paper original

Volver a Papers IA