MobileMoE: Escalando Mixtura de Expertos para ejecución local en móviles | Cómo llevar la potencia de los modelos MoE a smartphones | Optimización de arquitecturas dispersas para dispositivos personales con recursos limitados
Abstract
PROBLEMA: Los modelos de Mixtura de Expertos (MoE) son excelentes para el escalado, pero sus enormes requerimientos de memoria para cargar todos los pesos de los expertos impiden su uso eficiente en dispositivos móviles. SOLUCIÓN: El paper presenta MobileMoE, una arquitectura diseñada específicamente para el escalado en el dispositivo (on-device) que optimiza la carga de expertos y la computación dispersa. METODOLOGÍA: Implementan un mecanismo de enrutamiento especializado y una técnica de compartición de pesos entre expertos que minimiza el movimiento de datos entre la RAM y la NPU del móvil. RESULTADOS: Logran un rendimiento equivalente a modelos densos de 7B parámetros pero con una fracción del coste energético y una latencia de inferencia 3 veces menor en dispositivos gama media. RELEVANCIA: Democratiza el acceso a modelos de alta capacidad permitiendo el procesamiento local privado y eficiente en el borde (edge computing).