Ir al contenido principalSaltar al contenido

ELDR: Enrutamiento consciente de la localidad de expertos para MoE desagregados | Optimización de la latencia en el despliegue de modelos Mixture-of-Experts | Cómo servir LLMs masivamente eficientes en infraestructuras distribuidas

MoE servingMixture of Experts optimizationDecode Routingenrutamiento de inferenciaExpert Localitydisaggregated servinglatencia de inferencia IA

Abstract

PROBLEMA: El despliegue de modelos Mixture-of-Experts (MoE) en infraestructuras desagregadas sufre de altos cuellos de botella por la latencia en la transferencia de datos entre los nodos de 'Prefill' y 'Decode'. SOLUCIÓN: Introducen ELDR (Expert-Locality-Aware Decode Routing), una técnica de enrutamiento que optimiza la ubicación del procesamiento basándose en la localidad de los expertos. METODOLOGÍA: ELDR agrupa peticiones basándose en la afinidad de los expertos activados, minimizando el movimiento de pesos de modelos por la red en arquitecturas de computación distribuida. RESULTADOS: Logra una reducción sustancial en la latencia de primer token y aumenta el throughput total del sistema de servicio en comparación con esquemas de enrutamiento aleatorio o basados en balanceo de carga simple. RELEVANCIA: Vital para empresas que despliegan LLMs masivos (tipo GPT-4 o Mixtral) en la nube, optimizando costos operativos y experiencia de usuario.

Asesor Virtual 24h - Abre el chat para consultasAsesor Virtual 24h
Hablar por WhatsApp con nuestro agenteLlámanos al teléfono