12 de junio de 2026

WeaveBench: Un benchmark de horizonte largo para agentes de uso de computadora con interfaces híbridas | Evaluación de la autonomía de agentes de IA en software del mundo real | Nueva métrica para medir la efectividad de agentes autónomos en tareas complejas de escritorio

Computer-Use Agentsagentes de uso de computadoraWeaveBenchHybrid Interfacesinterfaces híbridasLong-Horizon Taskstareas de horizonte largoBenchmark IA

Abstract

PROBLEMA: Los benchmarks actuales para agentes que usan computadoras suelen ser tareas cortas y aisladas que no reflejan la complejidad de los flujos de trabajo reales donde los agentes deben interactuar con interfaces gráficas (GUI) y APIs simultáneamente. SOLUCIÓN: WeaveBench es un nuevo benchmark de horizonte largo diseñado para evaluar agentes en entornos de software del mundo real utilizando interfaces híbridas. Cubre tareas que requieren navegación web, uso de herramientas internas de escritorio y manipulación de archivos. METODOLOGÍA: Microsoft diseñó 500 tareas complejas divididas en 12 dominios de software profesional. Se probaron modelos como GPT-4o y Claude 3.5 Sonnet bajo configuraciones de solo visión y visión+texto. RESULTADOS: Los resultados muestran que incluso los modelos más avanzados todavía fallan en el 60% de las tareas que requieren más de 10 pasos de interacción, revelando una brecha crítica en la planificación lógica a largo plazo. RELEVANCIA: Proporciona el entorno de prueba más realista hasta la fecha para el desarrollo de "Agentes de Computadora" que realmente puedan automatizar el trabajo de oficina moderno.

Leer paper original

Volver a Papers IA