MolmoAct2: Modelos de razonamiento de acción para despliegue en el mundo real | Cómo mejorar la ejecución de tareas en agentes inteligentes | Agentes multimodales para la automatización de interfaces y navegación digital
Abstract
PROBLEMA: Los modelos visuales-lenguaje (VLMs) actuales a menudo fallan al traducir percepciones visuales en secuencias de acciones precisas y coherentes para entornos de mundo real o interfaces digitales complejas. SOLUCIÓN: El paper presenta MolmoAct2, una evolución de la familia Molmo optimizada específicamente para el razonamiento de acciones, permitiendo una navegación y manipulación más robusta en entornos dinámicos. METODOLOGÍA: Utilizan un pipeline de datos refinado que combina demostraciones de expertos con aprendizaje por refuerzo basado en retroalimentación visual, integrando una arquitectura de transformador de alta resolución. RESULTADOS: MolmoAct2 demuestra una mejora significativa en benchmarks de navegación web y control de dispositivos, superando a modelos previos en la precisión de la ubicación de clics y la selección de herramientas. RELEVANCIA: Es fundamental para el desarrollo de agentes autónomos que no solo generen texto, sino que actúen de manera efectiva sobre interfaces digitales y físicas.