Ir al contenido principal

Modelos de Mezcla de Expertos extendidos temporalmente | Optimización de la activación de expertos en secuencias de datos continuas | Eficiencia de inferencia mediante routing temporalmente consistente en MoE

Mixture-of-ExpertsMoE avanzadoeficiencia de inferencia LLMprocesamiento temporal IA Guadalajaraingeniería de transformadoresarquitectura neuronal dinámica

Abstract

PROBLEMA: Los modelos Mixture-of-Experts (MoE) tradicionales activan expertos token a token, lo que ignora la correlación temporal en datos secuenciales y genera una sobrecarga de conmutación innecesaria. SOLUCIÓN: Proponen los Modelos MoE Temporalmente Extendidos (TE-MoE), que mantienen la activación de expertos a través de segmentos temporales extendidos en lugar de tokens individuales. METODOLOGÍA: Implementan un mecanismo de "routing persistente" basado en la similitud de características en una ventana de tiempo, reduciendo las fluctuaciones de activación de expertos. RESULTADOS: Logran una reducción del 40% en la latencia de inferencia en tareas de video y razonamiento de contexto largo, manteniendo o incluso mejorando la precisión del modelo base. RELEVANCIA: Esta innovación permite desplegar modelos MoE masivos de forma mucho más eficiente en aplicaciones de tiempo real o procesamiento de flujos constantes de información.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h