VLX-Seek: Mejorando la percepción de grano fino en VLMs mediante referencia de región en lugar de generación de coordenadas
VLX-Seek es un modelo de inferencia eficiente para visión integrada en dispositivos, que mejora la percepción de grano fino de los VLMs (Modelos Grandes Multimodales) al reformular las tareas de percepción centradas en objetos de la generación de coordenadas a la referencia de región. Este enfoque permite que los VLMs comprendan no solo "qué hay en una imagen", sino también "dónde está precisamente", lo cual es crucial para aplicaciones en robots, drones y cámaras. VLX-Seek aborda los puntos débiles de los VLMs tradicionales en la localización precisa, ofreciendo estabilidad, eficiencia y una capacidad unificada para tareas como detección, comprensión de expresiones referenciales y conteo de objetos.
VLX-SeekVLMpercepción de grano finoreferencia de regiónmodelos multimodalesrobóticavisión artificial
Leer noticia original