1 de mayo de 2026

Claw-Eval-Live: Benchmark dinámico para agentes en entornos reales | Evaluación en tiempo real de agentes autónomos en flujos web | Medición de la capacidad de adaptación de agentes IA en vivo

Agent BenchmarkClaw-Eval-Liveagentes autónomos AIevaluación en vivoReal-world workflowsevaluación de LLMs en ejecuciónautomatización de procesos IA

Abstract

PROBLEMA: Los benchmarks actuales para agentes son estáticos y a menudo sufren de contaminación de datos, no reflejando la naturaleza cambiante y ruidosa de los entornos web del mundo real. SOLUCIÓN: Presentan Claw-Eval-Live, un sistema de evaluación dinámico que utiliza flujos de trabajo web reales que evolucionan constantemente para probar la adaptabilidad de los agentes. METODOLOGÍA: El benchmark genera tareas en tiempo real sobre sitios web activos, requiriendo que el agente maneje cambios en la UI, autenticaciones y latencias impredecibles. RESULTADOS: Muestran que los modelos que dominan benchmarks estáticos ven una caída del 40% en su éxito cuando se enfrentan a entornos 'live', subrayando la necesidad de robustez. RELEVANCIA: Esencial para desarrolladores que despliegan agentes RAG y de automatización en entornos productivos fuera de sandboxes controlados.

Leer paper original

Volver a Papers IA