Ir al contenido principal

dMoE: Modelos de lenguaje con expertos de bloque aprendibles | Mejora de la arquitectura Mixture-of-Experts mediante especialización dinámica | Cómo optimizar el uso de parámetros en modelos de IA dispersos (sparse)

Mixture of Experts宣dMoE宣Learnable Block Experts宣,

Abstract

PROBLEMA: Las arquitecturas de Mezcla de Expertos (MoE) tradicionales utilizan expertos estáticos que pueden llevar a una infrautilización de ciertos parámetros o a una falta de especialización durante el entrenamiento. SOLUCIÓN: Se propone dMoE, una variante de los modelos MoE que emplea "Expertos de Bloque Aprendibles" (Learnable Block Experts). En lugar de tener rutas fijas hacia subredes estáticas, el modelo puede ajustar la estructura y el contenido de los bloques expertos durante el proceso de aprendizaje. METODOLOGÍA: Utilizan un mecanismo de enrutamiento dinámico junto con pesos de bloque que se co-optimizan, permitiendo que la arquitectura se adapte a la distribución de los datos de entrada de manera más granular que los MoE convencionales. RESULTADOS: dMoE logra un rendimiento superior en pruebas de perplejidad y razonamiento matemático, utilizando el mismo presupuesto computacional que los modelos MoE estándar, con una mejor distribución de la carga de trabajo entre expertos. RELEVANCIA: Es un avance significativo en la búsqueda de modelos de lenguaje masivos pero eficientes (computación dispersa) que pueden especializarse mejor en diferentes dominios.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h