ClawArena: Evaluación de agentes de IA en entornos de información en constante evolución | Benchmark de resiliencia para agentes ante cambios de contexto dinámicos | Cómo medir la capacidad de adaptación de la IA en tiempo real
Abstract
PROBLEMA: Los benchmarks actuales para agentes son estáticos y no evalúan la capacidad de la IA para adaptarse a entornos donde la información cambia o caduca rápidamente. SOLUCIÓN: Presentan ClawArena, un entorno de evaluación dinámica donde los agentes deben competir y colaborar mientras los datos externos evolucionan constantemente. METODOLOGÍA: Simulan flujos de información (como mercados financieros o feeds de noticias) y miden la tasa de éxito de los agentes en actualizar sus planes de acción. RESULTADOS: El estudio revela que incluso los modelos SOTA fallan sistemáticamente cuando las premisas de una tarea cambian sutilmente a mitad de la ejecución. RELEVANCIA: Impulsa el desarrollo de agentes más robustos que no dependan de 'verdades estáticas' y puedan operar en el mundo real donde el contexto es cambiante.