Hugging Face

Construyendo un modelo OCR multilingüe rápido con datos sintéticos

19 de abril de 2026

NVIDIA ha lanzado Nemotron OCR v2, un modelo de reconocimiento óptico de caracteres (OCR) multilingüe preciso y rápido, entrenado con 12 millones de imágenes sintéticas generadas para seis idiomas: inglés, japonés, coreano, ruso y chino simplificado/tradicional. Este modelo supera a competidores en precisión y velocidad, alcanzando 34,7 páginas por segundo en una GPU A100 gracias a una arquitectura eficiente que reutiliza características de detección. El dataset sintético, basado en mOSCAR y un pipeline modificado de SynthDoG, está disponible públicamente en Hugging Face, junto con el modelo y una demo interactiva. Esta aproximación sintética resuelve los desafíos de escalabilidad y calidad de datos para OCR multilingüe, permitiendo extensiones fáciles a nuevos idiomas.

Nemotron OCR v2NVIDIAOCR multilingüedatos sintéticosSynthDoGmOSCARHugging Face

Leer noticia original

Volver a Noticias IA