Ir al contenido principal
Hugging Face

Cómo ajustar Nemotron 3.5 ASR para tu idioma, dominio o acento

NVIDIA presenta Nemotron 3.5 ASR, un modelo de voz a texto de 600 millones de parámetros que transcribe 40 idiomas de forma multilingüe y en tiempo real, incluyendo puntuación y capitalización. Este modelo, sucesor del Nemotron 3 ASR, destaca por su baja latencia (0.07 segundos) y alta precisión gracias a su arquitectura Cache-Aware FastConformer-RNNT. Se ofrece como pesos abiertos en Hugging Face, permitiendo a los usuarios inspeccionar, ajustar y desplegarlo sin dependencias de API. El artículo detalla cómo este modelo aborda los problemas actuales del reconocimiento de voz multilingüe y ofrece una guía para llevar a cabo el ajuste fino del modelo en diversos escenarios.

NVIDIA Nemotron 3.5 ASRreconocimiento de vozajuste finomodelos multilingüesASR en tiempo realHugging FaceCache-Aware FastConformer-RNNT
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h