ReMix: Enrutamiento por refuerzo para mezclas de LoRAs en el ajuste fino de LLMs
Abstract
Meta Research propone ReMix, una técnica avanzada de enrutamiento basada en aprendizaje por refuerzo para gestionar múltiples módulos LoRA (Low-Rank Adaptation) de manera simultánea durante el ajuste fino y la inferencia. El problema crítico que resuelve es cómo combinar de forma óptima expertos de bajo rango (LoRAs) especializados en diferentes tareas sin incurrir en la degradación que suele ocurrir con el promedio de pesos simple. ReMix utiliza una red de enrutamiento ligeras entrenada con RL que selecciona y combina dinámicamente las contribuciones de cada LoRA en función de la entrada específica. Esto permite que un único modelo base se comporte como un especialista altamente capacitado en múltiples dominios (código, razonamiento matemático, diálogos creativos) al activar selectivamente las neuronas adaptativas más relevantes, manteniendo una huella de memoria mínima.