VLX-Seek: Mejorando la percepción de grano fino en VLMs mediante referencia de región en lugar de generación de coordenadas
VLX-Seek es un nuevo enfoque que mejora la percepción de grano fino en los modelos multimodales de lenguaje (VLMs) al reformular las tareas de localización de la generación de coordenadas a la referencia de región. Esto permite a los VLMs, a pesar de su tamaño compacto, superar las limitaciones de localización precisa en entornos integrados como robots y drones. El sistema utiliza el VLM-Seek-3B para lograr una eficiencia de inferencia mejorada y un rendimiento superior en tareas de detección de objetos, detección de vocabulario abierto, tareas de expresión de referencia complejas y conteo de objetos, superando a modelos mucho más grandes en las mismas tareas. Es crucial para dispositivos integrados que necesitan módulos de percepción eficientes y precisos.