Sparse-BitNet: Sinergia entre modelos de 1.58 bits y dispersión semi-estructurada para eficiencia extrema
Abstract
Basándose en la arquitectura BitNet de 1.58 bits, este trabajo introduce Sparse-BitNet, demostrando que los modelos de ultra-baja precisión (ternarios) son inherentemente compatibles con la dispersión (sparsity) semi-estructurada. La investigación revela que, debido a la naturaleza discreta de los pesos en BitNet, la poda de parámetros (pruning) afecta mucho menos a la perplejidad del modelo en comparación con los modelos de punto flotante tradicionales. Los autores proponen un flujo de trabajo que combina la cuantización extrema con técnicas de dispersión para reducir drásticamente el uso de memoria y la latencia de inferencia sin sacrificar la capacidad de razonamiento. Este avance representa un paso importante hacia la ejecución de LLMs de gran escala en hardware con recursos extremadamente limitados, manteniendo el rendimiento en tareas de lenguaje natural.