Ley de Memoria Paramétrica para el Finetuning de LLMs con LoRA | Cómo cuantificar la memorización de datos en adaptadores de bajo rango | Guía técnica para optimizar la capacidad de retención en modelos ajustados
Abstract
PROBLEMA: No existe una comprensión teórica clara sobre cómo la configuración de Low-Rank Adaptation (LoRA) influye en la capacidad de un modelo para memorizar información específica del conjunto de entrenamiento. La falta de métricas precisas dificulta la optimización estratégica del rango y la escala durante el post-entrenamiento. SOLUCIÓN: El paper propone una 'Ley de Memoria Paramétrica' que cuantifica la relación entre el rango de LoRA, el número de parámetros entrenables y la capacidad de almacenamiento de datos. Establece un marco matemático para predecir cuándo un modelo empezará a olvidar o a saturar su capacidad de aprendizaje. METODOLOGÍA: Los investigadores realizaron experimentos sistemáticos variando el rango (r) y la profundidad de las capas sobre modelos Llama-3 y Qwen, midiendo la precisión de recuperación de hechos específicos tras el ajuste. RESULTADOS: Se demuestra que la memorización no escala de forma lineal con el rango, sino que sigue una función de potencia específica, permitiendo identificar el 'punto dulce' de eficiencia. RELEVANCIA: Es fundamental para ingenieros de ML que buscan inyectar conocimiento específico en modelos mediante PEFT sin desperdiciar recursos computacionales ni causar colapso de capacidades previas.