Hugging Face Blog

VLX-Seek: Mejorando la percepción de grano fino en VLMs mediante referencia de región en lugar de generación de coordenadas

28 de junio de 2026

VLX-Seek es un modelo de inferencia eficiente para visión integrada en dispositivos, que mejora la percepción de grano fino de los VLMs (Modelos Grandes Multimodales) al reformular las tareas de percepción centradas en objetos de la generación de coordenadas a la referencia de región. Este enfoque permite que los VLMs comprendan no solo "qué hay en una imagen", sino también "dónde está precisamente", lo cual es crucial para aplicaciones en robots, drones y cámaras. VLX-Seek aborda los puntos débiles de los VLMs tradicionales en la localización precisa, ofreciendo estabilidad, eficiencia y una capacidad unificada para tareas como detección, comprensión de expresiones referenciales y conteo de objetos.

VLX-SeekVLMpercepción de grano finoreferencia de regiónmodelos multimodalesrobóticavisión artificial

Leer noticia original

Volver a Noticias IA