Modelos de embedding y reranker multimodales con Sentence Transformers
Sentence Transformers ha lanzado la versión 5.4, que introduce capacidades multimodales para codificar y comparar textos, imágenes, audio y videos utilizando la misma API familiar. Los modelos de embedding multimodales mapean entradas de diferentes modalidades en un espacio compartido, permitiendo búsquedas cross-modal como texto contra imágenes. Los rerankers multimodales puntúan la relevancia de pares mixtos de modalidades, mejorando aplicaciones como RAG multimodal. Se detallan ejemplos de uso, instalación y modelos soportados como Qwen3-VL y Nvidia Nemotron. Esta actualización democratiza el acceso a herramientas avanzadas de IA open source.
Sentence Transformersmodelos multimodalesembeddingsrerankermultimodal RAGQwen3-VLHugging Face
Leer noticia original