31 de marzo de 2026

El Dilema del Token: MoE Dinámico para Aprendizaje Continuo en Modelos de Visión y Lenguaje | Cómo evitar el olvido en modelos multimodales mediante asignación consciente de la deriva | Arquitecturas MoE adaptativas para entrenamiento secuencial de IA multimodal

Mixture of Experts MoEContinual Learning IAVision Language Models LVLMalucinaciones visuales IAolvido catastrófico IAdrift-aware token assignment

Abstract

PROBLEMA: Los modelos de visión y lenguaje de gran escala (LVLM) sufren de 'olvido catastrófico' al ser entrenados de forma continua con nuevos datos, lo que degrada su capacidad para procesar información previamente aprendida. SOLUCIÓN: Se propone un modelo de Mezcla de Expertos (MoE) Dinámico con una técnica de 'Asignación de Tokens Consciente de la Deriva' (Drift-Aware). Este mecanismo detecta cambios en la distribución de los tokens de entrada y redirige el flujo hacia los expertos más capaces de manejar la nueva información sin sobreescribir los pesos de los expertos especializados en tareas antiguas. METODOLOGÍA: Los investigadores implementaron una capa de gating inteligente que calcula la entropía y la novedad de los tokens visuales y textuales, ajustando dinámicamente cuántos y cuáles expertos se activan. RESULTADOS: El método superó a los modelos MoE estáticos en un 12% en tareas de aprendizaje continuo y redujo la degradación de rendimiento en tareas base a menos del 1% tras múltiples etapas de fine-tuning. RELEVANCIA: Es crucial para el desarrollo de IAs que necesitan aprender del mundo físico y digital en tiempo real sin perder sus capacidades fundacionales.

Leer paper original

Volver a Papers IA