Ir al contenido principal
Hugging Face

Construyendo un modelo OCR multilingüe rápido con datos sintéticos

NVIDIA ha lanzado Nemotron OCR v2, un modelo OCR multilingüe preciso y rápido entrenado con 12 millones de imágenes sintéticas en seis idiomas: inglés, japonés, coreano, ruso y chino. Utiliza una arquitectura eficiente basada en FOTS que reutiliza el backbone de detección para reconocimiento y modelo relacional, logrando 34,7 páginas por segundo en una GPU A100. La pipeline de datos sintéticos, basada en SynthDoG modificado y mOSCAR, genera anotaciones perfectas a múltiples niveles con grafos de orden de lectura. Este enfoque supera limitaciones de datos reales, ofreciendo mejor rendimiento que competidores como PaddleOCR en benchmarks sintéticos y reales. El modelo, dataset y demo están disponibles abiertamente en Hugging Face.

Nemotron OCR v2NVIDIAOCR multilingüedatos sintéticosSynthDoGmOSCARHugging Face
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h