Ir al contenido principal

Ley de Memoria Paramétrica para el Finetuning de LLMs con LoRA | Cómo cuantificar la memorización de datos en adaptadores de bajo rango | Guía técnica para optimizar la capacidad de retención en modelos ajustados

LoRA memory lawmemorización paramétricaLLM finetuningcapacidad del modeloretención de datosscaling lawsadaptación de bajo rango

Abstract

PROBLEMA: No existe una comprensión teórica clara sobre cómo la configuración de Low-Rank Adaptation (LoRA) influye en la capacidad de un modelo para memorizar información específica del conjunto de entrenamiento. La falta de métricas precisas dificulta la optimización estratégica del rango y la escala durante el post-entrenamiento. SOLUCIÓN: El paper propone una 'Ley de Memoria Paramétrica' que cuantifica la relación entre el rango de LoRA, el número de parámetros entrenables y la capacidad de almacenamiento de datos. Establece un marco matemático para predecir cuándo un modelo empezará a olvidar o a saturar su capacidad de aprendizaje. METODOLOGÍA: Los investigadores realizaron experimentos sistemáticos variando el rango (r) y la profundidad de las capas sobre modelos Llama-3 y Qwen, midiendo la precisión de recuperación de hechos específicos tras el ajuste. RESULTADOS: Se demuestra que la memorización no escala de forma lineal con el rango, sino que sigue una función de potencia específica, permitiendo identificar el 'punto dulce' de eficiencia. RELEVANCIA: Es fundamental para ingenieros de ML que buscan inyectar conocimiento específico en modelos mediante PEFT sin desperdiciar recursos computacionales ni causar colapso de capacidades previas.

Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h