Ir al contenido principalSaltar al contenido
Hugging Face Blog

VLX-Seek: Mejorando la percepción de grano fino en VLMs mediante referencia de región en lugar de generación de coordenadas

VLX-Seek es un modelo de inferencia eficiente para visión integrada en dispositivos, que mejora la percepción de grano fino de los VLMs (Modelos Grandes Multimodales) al reformular las tareas de percepción centradas en objetos de la generación de coordenadas a la referencia de región. Este enfoque permite que los VLMs comprendan no solo "qué hay en una imagen", sino también "dónde está precisamente", lo cual es crucial para aplicaciones en robots, drones y cámaras. VLX-Seek aborda los puntos débiles de los VLMs tradicionales en la localización precisa, ofreciendo estabilidad, eficiencia y una capacidad unificada para tareas como detección, comprensión de expresiones referenciales y conteo de objetos.

VLX-SeekVLMpercepción de grano finoreferencia de regiónmodelos multimodalesrobóticavisión artificial
Leer noticia original
Asesor Virtual 24h - Abre el chat para consultasAsesor Virtual 24h
Hablar por WhatsApp con nuestro agenteLlámanos al teléfono