Acelerando el ajuste fino de Transformers con NVIDIA NeMo AutoModel
NVIDIA NeMo AutoModel acelera significativamente el ajuste fino de modelos Transformers, incluidos los modelos Mixture-of-Experts (MoE), al integrarse directamente con Transformers v5 de HuggingFace. Esta solución ofrece una mejora de hasta 3,7 veces en el rendimiento de entrenamiento y una reducción de hasta el 32% en el uso de memoria GPU, sin requerir cambios en la API. NeMo AutoModel implementa paralelismo de expertos (EP), DeepEP para la fusión de comunicación y computación, y utiliza kernels de TransformerEngine para optimizaciones en operaciones clave, haciendo posible el entrenamiento de modelos de gran escala como el Nemotron 3 Ultra 550B.
NVIDIA NeMo AutoModelHuggingFace Transformersajuste finomodelos MoEparalelismo de expertosGPUNemotron 3 UltraTransformerEngine
Leer noticia original