Condición Espectral para μP bajo Escalado de Ancho y Profundidad en LLMs
Abstract
Este paper aborda un problema crítico en el entrenamiento de modelos de gran escala: cómo transferir hiperparámetros de manera efectiva cuando tanto el ancho (width) como la profundidad (depth) del modelo varían simultáneamente. Basándose en la parametrización de actualización máxima (μP), los autores introducen la 'Condición Espectral', un marco teórico que garantiza que la dinámica de aprendizaje permanezca estable y consistente a través de diferentes escalas. El estudio demuestra que las implementaciones estándar de μP a menudo fallan cuando la profundidad aumenta drásticamente debido a la explosión o desvanecimiento de las activaciones. Mediante el análisis de los valores propios de los pesos y las matrices de covarianza de las activaciones, proponen reglas de escalado ajustadas que permiten un entrenamiento estable de arquitecturas extremadamente profundas sin necesidad de una búsqueda exhaustiva de hiperparámetros en cada configuración. Este avance es fundamental para la eficiencia computacional en la fase de pre-entrenamiento de LLMs y modelos de mundo complejos donde el diseño de la arquitectura evoluciona constantemente.