Hugging Face

Modelos de embedding y reranker multimodales con Sentence Transformers

12 de abril de 2026

Sentence Transformers ha lanzado la versión 5.4, que introduce capacidades multimodales para codificar y comparar textos, imágenes, audio y videos utilizando la misma API familiar. Los modelos de embedding multimodales mapean entradas de diferentes modalidades en un espacio compartido, facilitando búsquedas cruzadas como texto contra imágenes o videos. Se proporcionan ejemplos detallados de codificación, similitud cross-modal, reranking de documentos mixtos y recuperación combinada con rerankers. El post lista modelos soportados como Qwen3-VL, NVIDIA Nemotron y BAAI BGE-VL, junto con instrucciones de instalación y configuración.

Sentence Transformersmodelos multimodalesembeddingsrerankersQwen3-VLHugging Faceinteligencia artificial

Leer noticia original

Volver a Noticias IA