CUA-Suite: Dataset masivo de demostraciones de video para agentes de uso de computadora | Entrenamiento de agentes de interfaz mediante observación humana | Datos de alta fidelidad para automatización de tareas en PC
Abstract
PROBLEMA: El desarrollo de agentes capaces de operar interfaces de computadora (Computer-Use Agents) se ve limitado por la falta de datos de alta calidad que mapeen acciones de usuario con cambios visuales en pantalla. SOLUCIÓN: CUA-Suite presenta una colección masiva de demostraciones de video anotadas por humanos diseñadas específicamente para entrenar modelos que entiendan la interacción humano-computadora. METODOLOGÍA: Se capturaron miles de horas de interacción real, anotando cada clic, pulsación de tecla y transición de estado visual para proporcionar una señal de supervisión densa. RESULTADOS: El dataset permite que modelos de lenguaje de visión (VLM) superen significativamente a los modelos entrenados solo con datos sintéticos, mejorando la precisión en la ejecución de flujos de trabajo complejos. RELEVANCIA: Es fundamental para escalar la autonomía de agentes en entornos de software productivo y sistemas operativos.