Hugging Face

Construyendo un modelo OCR multilingüe rápido con datos sintéticos

21 de abril de 2026

NVIDIA ha desarrollado Nemotron OCR v2, un modelo de reconocimiento óptico de caracteres (OCR) multilingüe rápido y preciso, entrenado con 12 millones de imágenes sintéticas generadas para seis idiomas: inglés, japonés, coreano, ruso y chino. La tubería de datos sintéticos, basada en mOSCAR para texto y una versión modificada de SynthDoG para renderizado, produce anotaciones perfectas a nivel de palabra, línea y párrafo, incluyendo grafos de orden de lectura. Este enfoque resuelve los problemas de escalabilidad y calidad de datos reales, permitiendo un rendimiento superior en precisión y velocidad (34,7 páginas/segundo en una GPU A100) frente a competidores como PaddleOCR. El modelo y el dataset están disponibles públicamente en Hugging Face bajo licencias abiertas.

Nemotron OCR v2NVIDIAdatos sintéticosOCR multilingüeSynthDoGmOSCARHugging Face

Leer noticia original

Volver a Noticias IA