ELDR: Ruteo de decodificación eficiente para MoE | Optimización de la localidad de expertos en modelos de mezcla de expertos | Mejora de rendimiento en el despliegue de LLMs distribuidos tipo MoE
Abstract
PROBLEMA: Los modelos de Mezcla de Expertos (MoE) son difíciles de servir a escala debido a la alta latencia de comunicación entre los nodos que alojan diferentes expertos, especialmente en la fase de decodificación token a token. SOLUCIÓN: ELDR propone un sistema de ruteo de decodificación consciente de la localidad de los expertos. En lugar de mover datos constantemente entre GPUs, ELDR agrupa las peticiones basándose en la probabilidad de activación de expertos cercanos, minimizando el tráfico de red. METODOLOGÍA: Implementado sobre una infraestructura de servicio desagregada (PD-disaggregated), donde el procesamiento de prompts y la decodificación ocurren en clusters separados. Probaron con modelos MoE de hasta 141B parámetros. RESULTADOS: ELDR reduce la latencia del primer token en un 25% y aumenta el throughput total del sistema en un 2.1x comparado con sistemas de ruteo estándar como DeepSpeed-Inference. RELEVANCIA: Es fundamental para hacer económicamente viables los modelos MoE gigantes en producción, reduciendo los costos de infraestructura y mejorando la experiencia del usuario final.