IBM publicó el 31 de marzo de 2026 Granite 4.0 3B Vision, un modelo de visión y lenguaje diseñado exclusivamente para extraer información de documentos empresariales. Con solo 3.000 millones de parámetros, el modelo alcanza el primer puesto en todos los benchmarks de extracción de tablas evaluados y una precisión del 85,5% en extracción de pares clave-valor sobre formularios en entorno de cero disparos. El dato llama la atención porque modelos comparados como Qwen3.5 de 9.000 millones de parámetros quedan por detrás en varios de esos indicadores.

Una arquitectura que separa lo que ve de dónde lo ve

El modelo se construye como un adaptador LoRA sobre Granite 4.0 Micro, la base de texto de IBM. Su innovación técnica principal es lo que IBM denomina DeepStack Injection: las características visuales abstractas se inyectan en las capas tempranas del modelo para que entienda el significado de lo que aparece en pantalla, mientras que las características espaciales de alta resolución se reservan para las capas tardías, donde importa la posición exacta de cada celda o campo. Esta separación es lo que permite al modelo entender simultáneamente qué dice una factura y dónde está el número de IVA dentro de ella, sin confundir estructura con contenido. El resultado es un componente modular: cuando no hay imagen, el mismo servicio cae automáticamente sobre Granite 4.0 Micro sin cambiar infraestructura.

Benchmarks concretos en las tareas que importan a las empresas

IBM publicó los resultados sobre benchmarks independientes. En extracción de tablas, Granite 4.0 3B Vision obtiene 92,1 sobre la métrica TEDS en PubTablesV2 con imagen recortada y 79,3 en página completa, posicionándose primero en todas las evaluaciones de esa categoría. En comprensión de gráficos, el modelo alcanza un 86,4% en el benchmark Chart2Summary, el resultado más alto entre todos los modelos evaluados, y un 62,1% en Chart2CSV, solo una décima por detrás de Qwen3.5-9B. Para entrenar estas capacidades, IBM construyó ChartNet, un dataset de 1,7 millones de muestras sintéticas que cubre 24 tipos de gráficos distintos, presentado en CVPR 2026. El modelo Qwen3.5 de 9.000 millones de parámetros, casi el triple de grande, queda por detrás en la mayoría de estas métricas.

El impacto en sectores que manejan documentos sensibles

El caso de uso inmediato es cualquier sector que procese documentos con información regulada: clínicas que digitalizan historiales en papel, despachos de abogados que extraen cláusulas de contratos, contabilidades que procesan facturas de múltiples proveedores o aseguradoras que clasifican formularios de siniestros. El factor diferencial respecto a soluciones de OCR en la nube es el despliegue local: al correr en hardware propio con 3.000 millones de parámetros, los documentos no salen del perímetro de la organización. IBM indica además que los modelos Granite 4.0 son los primeros open-source en recibir la certificación ISO 42001, la norma internacional de gestión de sistemas de inteligencia artificial.

Conclusión

Granite 4.0 3B Vision sitúa a IBM en una posición técnicamente relevante en el segmento de modelos pequeños y especializados. No compite con los modelos generalistas de OpenAI o Google en razonamiento o conversación, pero en extracción estructurada de documentos empresariales supera a modelos tres veces más grandes. Para organizaciones que necesitan automatizar el procesamiento documental con requisitos de privacidad estrictos, la combinación de rendimiento, tamaño reducido y licencia abierta convierte a este modelo en una referencia práctica a partir de ahora.