Modelos de embedding y reranker multimodales con Sentence Transformers
Sentence Transformers ha lanzado la versión 5.4, que introduce capacidades multimodales para codificar y comparar textos, imágenes, audio y videos utilizando la misma API familiar. Los modelos de embedding multimodales mapean entradas de diferentes modalidades en un espacio compartido, facilitando búsquedas cruzadas como texto contra imágenes o videos. Se proporcionan ejemplos detallados de codificación, similitud cross-modal, reranking de documentos mixtos y recuperación combinada con rerankers. El post lista modelos soportados como Qwen3-VL, NVIDIA Nemotron y BAAI BGE-VL, junto con instrucciones de instalación y configuración.
Sentence Transformersmodelos multimodalesembeddingsrerankersQwen3-VLHugging Faceinteligencia artificial
Leer noticia original