Ir al contenido principal
Hugging Face

EMO: Preentrenamiento de mezcla de expertos para modularidad emergente

AllenAI ha lanzado EMO, un nuevo modelo de mezcla de expertos (MoE) preentrenado de extremo a extremo para que la estructura modular emerja directamente de los datos sin depender de priors humanos. EMO permite usar solo un subconjunto pequeño de sus expertos —el 12,5% del total— para tareas específicas manteniendo un rendimiento cercano al modelo completo, mientras funciona como un modelo general fuerte con todos los expertos. Entrenado en 1 billón de tokens con 1B parámetros activos y 14B totales (8 expertos activos, 128 totales), EMO especializa expertos en dominios semánticos coherentes mediante el uso de límites de documentos como señal supervisora débil. Esto resuelve problemas de MoEs estándar donde los subconjuntos de expertos no funcionan bien solos. Los resultados muestran robustez en benchmarks con subconjuntos pequeños, mejorando el equilibrio memoria-precisión.

EMOAllenAImezcla de expertosmodularidad emergentemodelos MoEpreentrenamientoHugging Face
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h