EMO: Preentrenamiento de mezcla de expertos para modularidad emergente
AllenAI ha lanzado EMO, un nuevo modelo de mezcla de expertos (MoE) de 1B parámetros activos y 14B totales, preentrenado en 1 billón de tokens para que la estructura modular emerja directamente de los datos sin depender de priors humanos definidos. EMO permite utilizar solo un subconjunto pequeño de expertos (el 12,5% del total) para tareas específicas manteniendo un rendimiento cercano al del modelo completo, mientras funciona como un modelo general fuerte con todos los expertos. La clave es restringir los tokens de un mismo documento a un pool compartido de expertos, fomentando la especialización en dominios semánticos coherentes como salud, noticias o código. Esto resuelve limitaciones de MoE estándar, donde los expertos se especializan en patrones léxicos bajos. Los resultados muestran robustez en benchmarks con subconjuntos de expertos, mejorando trade-offs memoria-precisión. Se liberan modelos, código y visualizaciones en Hugging Face y GitHub.