STALE: Evaluación de la Consciencia de Validez en Memorias de Agentes | ¿Pueden los agentes IA detectar información obsoleta en su memoria? | Identificación y gestión de conocimientos caducados en sistemas agénticos autónomos
Abstract
PROBLEMA: Los agentes basados en LLM frecuentemente confían en información almacenada en su memoria que ha dejado de ser válida debido a cambios en el entorno (información obsoleta). SOLUCIÓN: El benchmark STALE evalúa si los agentes pueden identificar cuándo sus recuerdos ya no son veraces y necesitan ser actualizados o descartados. METODOLOGÍA: Se diseñaron escenarios dinámicos donde los hechos cambian con el tiempo, obligando al agente a realizar verificaciones de consistencia interna y externa antes de actuar. RESULTADOS: Los experimentos muestran que la mayoría de los agentes actuales sufren de 'ceguera a la dinámica', fallando en detectar obsolescencia en más del 60% de los casos. RELEVANCIA: Es un paso crítico para construir agentes confiables que operen en entornos del mundo real donde la información es volátil y cambiante.