Hugging Face

Modelos de embedding y reranker multimodales con Sentence Transformers

10 de abril de 2026

Sentence Transformers ha lanzado la versión 5.4, que introduce capacidades multimodales para codificar y comparar textos, imágenes, audio y videos utilizando la misma API familiar. Los modelos de embedding multimodales mapean entradas de diferentes modalidades en un espacio compartido, permitiendo búsquedas cross-modal como texto contra imágenes. Los rerankers multimodales puntúan la relevancia de pares mixtos de modalidades, mejorando aplicaciones como RAG multimodal. Se detallan ejemplos de uso, instalación y modelos soportados como Qwen3-VL y Nvidia Nemotron. Esta actualización democratiza el acceso a herramientas avanzadas de IA open source.

Sentence Transformersmodelos multimodalesembeddingsrerankermultimodal RAGQwen3-VLHugging Face

Leer noticia original

Volver a Noticias IA