Ir al contenido principal
Hugging Face

Granite 4.0 3B Vision: Inteligencia multimodal compacta para documentos empresariales

IBM ha lanzado Granite 4.0 3B Vision, un modelo compacto de visión-lenguaje diseñado específicamente para la comprensión de documentos empresariales complejos. Sobresale en la extracción precisa de tablas, la comprensión de gráficos convirtiéndolos en formatos estructurados, y la identificación de pares clave-valor semánticos. Desarrollado con el dataset ChartNet de un millón de muestras, la arquitectura DeepStack para inyección de características visuales y un diseño modular como adaptador LoRA sobre Granite 4.0 Micro. Logra resultados líderes en benchmarks como ChartNet, PubTables-v2, OmniDocBench y VAREX. Se integra con Docling para pipelines de procesamiento de documentos y está disponible en Hugging Face bajo licencia Apache 2.0, facilitando su uso en entornos empresariales.

Granite 4.0 3B VisionIBM Granitevisión-lenguajeChartNetDeepStackextracción de tablasdocumentos empresariales
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h