Cómo ajustar Nemotron 3.5 ASR para tu idioma, dominio o acento
NVIDIA presenta Nemotron 3.5 ASR, un modelo de voz a texto multilingüe de 600 millones de parámetros que transcribe 40 idiomas y dialectos en tiempo real, con puntuación y mayúsculas incorporadas. Este modelo de peso abierto es el sucesor del Nemotron 3 ASR y destaca por su baja latencia y alta precisión gracias a su arquitectura Cache-Aware FastConformer-RNNT. El artículo detalla cómo se puede afinar Nemotron 3.5 ASR para necesidades específicas, como idiomas con menos recursos o vocabularios especializados, y aborda los problemas actuales del reconocimiento de voz multilingüe.
Nemotron 3.5 ASRNVIDIAHugging Facemodelo de voz a textoreconocimiento de voz multilingüeafinar modelosCache-Aware FastConformer-RNNT
Leer noticia original