Rediseño de enrutadores MoE mediante Manifold Power Iteration | Optimización geométrica del enrutamiento en modelos de expertos dispersos | Mejorando la eficiencia de selección de expertos en LLMs arquitecturalmente complejos
Abstract
PROBLEMA: Los sistemas Mixture-of-Experts (MoE) actuales dependen de enrutadores (routers) basados en el softmax tradicional, lo que a menudo conlleva a una mala utilización de los expertos o a colapsos en la especialización, limitando el potencial de escalabilidad y eficiencia de los LLMs dispersos. SOLUCIÓN: El paper propone un rediseño radical de los routers MoE utilizando Manifold Power Iteration (MPI). Esta técnica permite optimizar el enrutamiento considerando la geometría de los datos en variedades de baja dimensión, asegurando una distribución de carga más equilibrada y una selección de expertos más precisa. METODOLOGÍA: Los autores implementan MPI sobre arquitecturas MoE estándar y evalúan el rendimiento en tareas de procesamiento de lenguaje natural de gran escala y visión, comparando la convergencia y la utilización de parámetros frente a routers convencionales. RESULTADOS: El método logra una mejora del 15% en la eficiencia de entrenamiento y reduce la redundancia de expertos en un 20% sin sacrificar la precisión del modelo final. RELEVANCIA: Esta investigación es fundamental para el despliegue de modelos de lenguaje masivos con presupuestos computacionales limitados, mejorando la viabilidad de los modelos de mezcla de expertos en producción.