VLAA-GUI: Framework modular para la automatización robusta de interfaces gráficas | Mejora de la recuperación de errores en agentes de navegación de software | Sistema avanzado para el control y supervisión de agentes en entornos GUI
Abstract
PROBLEMA: Los agentes de navegación en interfaces gráficas de usuario (GUI) suelen ser rígidos, fallando catastróficamente al encontrar cambios inesperados o errores de carga en la interfaz. SOLUCIÓN: VLAA-GUI introduce un marco modular que permite a los agentes decidir cuándo detenerse, cómo recuperarse de un estado de error y cuándo realizar una búsqueda activa de elementos. METODOLOGÍA: El sistema integra módulos de razonamiento visual-lingüístico con una lógica de control de errores que evalúa continuamente el éxito de las acciones en pantalla mediante contrastes visuales. RESULTADOS: El framework presenta una mayor tasa de finalización de tareas en entornos dinámicos de escritorio y web, reduciendo los bucles infinitos de acciones erróneas. RELEVANCIA: Vital para herramientas de automatización de procesos (RPA) de próxima generación basadas en modelos de lenguaje multimodales.