Video2GUI: Síntesis de trayectorias de interacción para agentes de GUI | Cómo preentrenar agentes de IA utilizando vídeos de interfaces | Generación de datos de interacción para automatización de software
Abstract
PROBLEMA: El entrenamiento de agentes capaces de interactuar con interfaces gráficas de usuario (GUI) requiere una cantidad masiva de datos de interacción humano-computadora, los cuales son costosos y difíciles de recolectar a escala. SOLUCIÓN: Los autores proponen Video2GUI, un framework que sintetiza trayectorias de interacción a gran escala a partir de vídeos de demostración existentes, eliminando la necesidad de registro manual de acciones. METODOLOGÍA: El sistema utiliza modelos de visión avanzados para extraer elementos de la interfaz y predecir las acciones correspondientes (clics, desplazamientos, escritura) a partir de cambios visuales en los fotogramas del vídeo, construyendo un dataset sintético masivo. RESULTADOS: Los experimentos demuestran que los agentes preentrenados con Video2GUI superan significativamente a los modelos base en tareas de navegación compleja en aplicaciones web y móviles, mostrando una generalización superior en entornos no vistos. RELEVANCIA: Este trabajo es fundamental para el desarrollo de agentes autónomos "world-centric" que puedan operar cualquier software de manera similar a un humano.