F2LLM-v2: Embeddings eficientes e inclusivos para un mundo multilingüe | Mejora de la recuperación semántica global en sistemas de lenguaje | Representaciones vectoriales de alto rendimiento para búsqueda translingüística
Abstract
PROBLEMA: La mayoría de los embeddings de alto rendimiento están sesgados hacia el inglés o requieren recursos computacionales excesivos para el despliegue a gran escala en otros idiomas. SOLUCIÓN: F2LLM-v2 presenta un modelo de embeddings inclusivo y altamente eficiente diseñado específicamente para un mundo multilingüe. METODOLOGÍA: Utiliza una arquitectura de entrenamiento que prioriza la alineación semántica entre idiomas de bajos recursos y lenguas dominantes sin sacrificar la latencia de inferencia. RESULTADOS: Supera a los modelos líderes actuales en el benchmark MTEB (Massive Text Embedding Benchmark) para idiomas no ingleses, manteniendo la competitividad en inglés. RELEVANCIA: Este trabajo es vital para mejorar la precisión de los sistemas RAG en empresas globales que gestionan datos en múltiples idiomas.