Construyendo un modelo OCR multilingüe rápido con datos sintéticos
NVIDIA ha lanzado Nemotron OCR v2, un modelo de reconocimiento óptico de caracteres (OCR) multilingüe preciso y rápido, entrenado con 12 millones de imágenes sintéticas generadas para seis idiomas: inglés, japonés, coreano, ruso y chino simplificado/tradicional. Este modelo supera a competidores en precisión y velocidad, alcanzando 34,7 páginas por segundo en una GPU A100 gracias a una arquitectura eficiente que reutiliza características de detección. El dataset sintético, basado en mOSCAR y un pipeline modificado de SynthDoG, está disponible públicamente en Hugging Face, junto con el modelo y una demo interactiva. Esta aproximación sintética resuelve los desafíos de escalabilidad y calidad de datos para OCR multilingüe, permitiendo extensiones fáciles a nuevos idiomas.