Lost in Backpropagation: Análisis y resolución del cuello de botella de gradientes en la LM Head de LLMs
Abstract
Este estudio fundamental identifica un cuello de botella crítico en el entrenamiento de LLMs denominado 'Lost in Backpropagation'. Los autores demuestran experimentalmente que la cabeza del modelo de lenguaje (LM Head), típicamente una capa lineal de gran tamaño al final del modelo, actúa como un filtro que degrada la calidad de los gradientes que fluyen hacia las capas inferiores del Transformer. Esta limitación afecta la capacidad del modelo para aprender dependencias complejas y optimizar los embeddings de manera eficiente. El paper propone técnicas de re-parametrización y métodos de escalado de gradientes específicos para la LM Head que permiten una transmisión de señal más nítida. El impacto de esta investigación es transversal: permite un entrenamiento más rápido, una convergencia más estable y mejoras en el rendimiento final del modelo sin aumentar el número de parámetros, ofreciendo una nueva vía para la eficiencia computacional en modelos de gran escala.