SageBwd: Optimización del mecanismo de atención mediante cuantización de bajo bit entrenable
Abstract
SageBwd introduce un mecanismo de atención de bajo bit (low-bit) que es entrenable de extremo a extremo, abordando uno de los mayores cuellos de botella en el entrenamiento de Transformadores: el consumo de memoria y energía durante el backward pass. A diferencia de las técnicas de cuantización post-entrenamiento (PTQ) que a menudo degradan el rendimiento, SageBwd integra la cuantización directamente en el proceso de optimización. Esto permite utilizar precisiones extremadamente bajas para las matrices de atención sin perder las capacidades de razonamiento o la coherencia lingüística del modelo. Los resultados demuestran reducciones significativas en el uso de VRAM y aceleraciones en el tiempo de entrenamiento, facilitando el escalado de modelos con contextos masivos en hardware limitado. Architecura vital para el desarrollo de LLMs eficientes y sostenibles.