Ir al contenido principalSaltar al contenido

ELDR: Ruteo de decodificación eficiente para MoE | Optimización de la localidad de expertos en modelos de mezcla de expertos | Mejora de rendimiento en el despliegue de LLMs distribuidos tipo MoE

MoE servingDecode RoutingExpert Localityeconomía de inferencia MoEsistemas distribuidos IAlatencia de red AILLM ops

Abstract

PROBLEMA: Los modelos de Mezcla de Expertos (MoE) son difíciles de servir a escala debido a la alta latencia de comunicación entre los nodos que alojan diferentes expertos, especialmente en la fase de decodificación token a token. SOLUCIÓN: ELDR propone un sistema de ruteo de decodificación consciente de la localidad de los expertos. En lugar de mover datos constantemente entre GPUs, ELDR agrupa las peticiones basándose en la probabilidad de activación de expertos cercanos, minimizando el tráfico de red. METODOLOGÍA: Implementado sobre una infraestructura de servicio desagregada (PD-disaggregated), donde el procesamiento de prompts y la decodificación ocurren en clusters separados. Probaron con modelos MoE de hasta 141B parámetros. RESULTADOS: ELDR reduce la latencia del primer token en un 25% y aumenta el throughput total del sistema en un 2.1x comparado con sistemas de ruteo estándar como DeepSpeed-Inference. RELEVANCIA: Es fundamental para hacer económicamente viables los modelos MoE gigantes en producción, reduciendo los costos de infraestructura y mejorando la experiencia del usuario final.

Asesor Virtual 24h - Abre el chat para consultasAsesor Virtual 24h
Hablar por WhatsApp con nuestro agenteLlámanos al teléfono