12 de marzo de 2026

ReMix: Enrutamiento por refuerzo para mezclas de LoRAs en el ajuste fino de LLMs

ReMixLoRA routingajuste fino eficienterefuerzo en entrenamientoparámetros adaptativos

Abstract

Meta Research propone ReMix, una técnica avanzada de enrutamiento basada en aprendizaje por refuerzo para gestionar múltiples módulos LoRA (Low-Rank Adaptation) de manera simultánea durante el ajuste fino y la inferencia. El problema crítico que resuelve es cómo combinar de forma óptima expertos de bajo rango (LoRAs) especializados en diferentes tareas sin incurrir en la degradación que suele ocurrir con el promedio de pesos simple. ReMix utiliza una red de enrutamiento ligeras entrenada con RL que selecciona y combina dinámicamente las contribuciones de cada LoRA en función de la entrada específica. Esto permite que un único modelo base se comporte como un especialista altamente capacitado en múltiples dominios (código, razonamiento matemático, diálogos creativos) al activar selectivamente las neuronas adaptativas más relevantes, manteniendo una huella de memoria mínima.

Leer paper original

Volver a Papers IA