Hugging Face

Entrenamiento y ajuste fino de modelos de embedding y reranker multimodales con Sentence Transformers

17 de abril de 2026

Tom Aarsen explica cómo entrenar y ajustar finamente modelos de embedding y reranker multimodales utilizando la biblioteca Sentence Transformers para aplicaciones como recuperación aumentada por generación y búsqueda semántica. Como ejemplo práctico, detalla el ajuste fino del modelo Qwen/Qwen3-VL-Embedding-2B para Recuperación de Documentos Visuales (VDR), logrando un NDCG@10 de 0.947 frente al 0.888 del modelo base, superando a modelos hasta 4 veces más grandes. El tutorial cubre componentes clave como modelo, dataset, funciones de pérdida (incluyendo CachedMultipleNegativesRankingLoss y MatryoshkaLoss), argumentos de entrenamiento, evaluador y entrenador. También aborda el entrenamiento de modelos reranker multimodales y proporciona recursos adicionales, ejemplos y documentación.

Sentence Transformersmodelos multimodalesembeddingrerankerVisual Document RetrievalQwen3-VL-Embedding-2Bfinetuning

Leer noticia original

Volver a Noticias IA