Análisis de la memoria paramétrica en el ajuste fino con LoRA | Cómo retienen información las redes neuronales con adaptadores de bajo rango | Leyes de escalado para la memorización en LLMs mediante finetuning eficiente
Abstract
PROBLEMA: Existe una falta de comprensión teórica sobre cómo y qué información almacenan los modelos de lenguaje grande (LLMs) durante el proceso de ajuste fino utilizando adaptadores de bajo rango (LoRA). SOLUCIÓN: Este paper propone una 'Ley de Memoria Paramétrica' específica para LoRA, que describe matemáticamente la relación entre la capacidad del rango (rank), la cantidad de datos y la capacidad de memorización del modelo. METODOLOGÍA: Se realizaron estudios empíricos extensos variando hiperparámetros de LoRA en múltiples arquitecturas para medir la retención de datos específicos frente a la generalización de tareas. RESULTADOS: Los autores derivaron una fórmula que predice la eficiencia de memorización, descubriendo que existen umbrales críticos de rango donde la memoria se estabiliza. RELEVANCIA: Este estudio es vital para ingenieros de IA que buscan optimizar el entrenamiento de modelos personalizados, evitando el sobreajuste y maximizando la eficiencia computacional.