Construyendo un modelo OCR multilingüe rápido con datos sintéticos
NVIDIA ha desarrollado Nemotron OCR v2, un modelo de reconocimiento óptico de caracteres (OCR) multilingüe rápido y preciso, entrenado con 12 millones de imágenes sintéticas generadas para seis idiomas: inglés, japonés, coreano, ruso y chino. La tubería de datos sintéticos, basada en mOSCAR para texto y una versión modificada de SynthDoG para renderizado, produce anotaciones perfectas a nivel de palabra, línea y párrafo, incluyendo grafos de orden de lectura. Este enfoque resuelve los problemas de escalabilidad y calidad de datos reales, permitiendo un rendimiento superior en precisión y velocidad (34,7 páginas/segundo en una GPU A100) frente a competidores como PaddleOCR. El modelo y el dataset están disponibles públicamente en Hugging Face bajo licencias abiertas.