Ir al contenido principal

ClawBench: Evaluando la capacidad de agentes IA para realizar tareas web reales | Benchmark para la automatización de gestiones online mediante modelos de lenguaje | Midiendo la fiabilidad de los agentes de navegación web autónomos

ClawBenchagentes webevaluación de agentesonline tasks benchmarking talesautomatización de procesos webIA para navegación web

Abstract

PROBLEMA: Faltan estándares rigurosos para medir si los agentes de IA pueden realizar tareas web reales y complejas (como comprar un billete o gestionar un formulario médico) de principio a fin de forma segura y eficiente. SOLUCIÓN: Se presenta ClawBench, un benchmark de nueva generación que simula entornos web dinámicos y realistas para evaluar la capacidad de ejecución de tareas cotidianas. METODOLOGÍA: ClawBench incluye más de 500 escenarios distintos con niveles de dificultad incremental, midiendo tasa de éxito, eficiencia de pasos y manejo de errores inesperados en el DOM de la página. RESULTADOS: Las pruebas revelan que incluso los modelos más avanzados fallan en tareas que requieren autenticación múltiple o razonamiento sobre interfaces de usuario inconsistentes, destacando una brecha crítica en la fiabilidad de los agentes. RELEVANCIA: Este benchmark impulsará el desarrollo de agentes web más robustos, proporcionando una métrica clara para la automatización de la economía digital.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h