Claw-Eval-Live: Benchmark dinámico para agentes en entornos reales | Evaluación en tiempo real de agentes autónomos en flujos web | Medición de la capacidad de adaptación de agentes IA en vivo
Abstract
PROBLEMA: Los benchmarks actuales para agentes son estáticos y a menudo sufren de contaminación de datos, no reflejando la naturaleza cambiante y ruidosa de los entornos web del mundo real. SOLUCIÓN: Presentan Claw-Eval-Live, un sistema de evaluación dinámico que utiliza flujos de trabajo web reales que evolucionan constantemente para probar la adaptabilidad de los agentes. METODOLOGÍA: El benchmark genera tareas en tiempo real sobre sitios web activos, requiriendo que el agente maneje cambios en la UI, autenticaciones y latencias impredecibles. RESULTADOS: Muestran que los modelos que dominan benchmarks estáticos ven una caída del 40% en su éxito cuando se enfrentan a entornos 'live', subrayando la necesidad de robustez. RELEVANCIA: Esencial para desarrolladores que despliegan agentes RAG y de automatización en entornos productivos fuera de sandboxes controlados.