Qwen-VLA: Unificación de modelos de Visión-Lenguaje-Acción | Modelo multimodal para el control y razonamiento de robots en diversos entornos | Arquitectura VLA para agentes IA con capacidad de ejecución física generalizada
Abstract
PROBLEMA: Los modelos actuales de Visión-Lenguaje (VLM) suelen carecer de la capacidad de ejecutar acciones físicas (grounding) de forma nativa en diversos cuerpos robóticos y entornos cambiantes. SOLUCIÓN: Qwen-VLA unifica el modelado de Visión-Lenguaje-Acción (VLA) en un solo marco de trabajo, permitiendo que el mismo modelo realice tareas de razonamiento visual y ejecución de comandos motores. METODOLOGÍA: Los investigadores entrenaron el modelo en un corpus masivo que combina datos de internet con trayectorias de control robótico, utilizando una arquitectura de transformadores que mapea tokens visuales y textuales directamente a comandos de acción. RESULTADOS: El modelo supera a sus predecesores en generalización 'zero-shot' a nuevos robots y tareas, demostrando una notable capacidad para entender instrucciones espaciales complejas. RELEVANCIA: Representa un avance crítico hacia agentes de IA 'encarnados' que pueden operar en el mundo físico de manera similar a como los LLMs operan en el mundo del texto.