BidirLM: convirtiendo LLMs generativos en los mejores codificadores omninodales de código abierto
El equipo de BidirLM introduce una receta de código abierto para transformar LLMs causales decodificadores en potentes codificadores bidireccionales omninodales. Realizan ablaciones sistemáticas en Gemma3 y Qwen3 para identificar la estrategia de adaptación óptima, basada en atención bidireccional, MNTP y entrenamiento contrastivo, escalándola sin datos de preentrenamiento originales mediante fusión de pesos y mezclas multidominio. Compone especialistas mediante fusión de pesos para crear BidirLM-Omni-2.5B, un modelo compacto que maneja texto, imágenes y audio, superando a modelos omninodales y unimodales en benchmarks como MTEB, MIEB y MAEB. Liberan todos los modelos, datos y checkpoints en Hugging Face Hub.
BidirLMBidirLM-Omnicodificadores bidireccionalesLLMs causalesfusión de pesosQwen3Gemma3
Leer noticia original