ClawGUI: Un Framework Unificado para el Entrenamiento, Evaluación y Despliegue de Agentes GUI | Sistema integral para crear agentes de IA que navegan interfaces visuales | Automatización de software mediante modelos de visión y lenguaje aplicados a pantallas
Abstract
PROBLEMA: El desarrollo de agentes capaces de interactuar con interfaces gráficas (GUIs) está fragmentado, careciendo de un flujo unificado que integre el entrenamiento, la evaluación rigurosa y el despliegue en entornos reales. SOLUCIÓN: Se introduce ClawGUI, un framework integral diseñado para estandarizar el ciclo de vida de los agentes de interfaz. Proporciona herramientas para la captura de datos de interacción, una infraestructura de entrenamiento optimizada para visión y lenguaje, y un entorno de ejecución seguro. METODOLOGÍA: El sistema utiliza modelos de visión-lenguaje de última generación integrados con una capa de razonamiento de acciones que traduce instrucciones de texto en clics, desplazamientos y entradas de teclado sobre la pantalla. RESULTADOS: ClawGUI demuestra una mejora en la tasa de éxito de tareas complejas en comparación con agentes que operan solo mediante APIs, destacando por su robustez ante cambios en la disposición visual de las interfaces. RELEVANCIA: Este trabajo es clave para la evolución de los asistentes digitales hacia la autonomía completa en sistemas operativos y aplicaciones web complejas.