Ir al contenido principal
Hugging Face

Falcon Perception: Transformer de fusión temprana de 0,6B parámetros para grounding y segmentación de vocabulario abierto

El Technology Innovation Institute (TII) ha lanzado Falcon Perception, un modelo Transformer de 0,6B parámetros que procesa parches de imagen y texto en una secuencia unificada mediante una máscara de atención híbrida para tareas de grounding y segmentación open-vocabulary. Supera a SAM 3 en el benchmark SA-Co con un 68,0 Macro-F1 y destaca en prompts complejos como atributos, OCR, espaciales y relaciones según el nuevo benchmark PBench. Además, presentan Falcon OCR, un modelo de 0,3B parámetros que alcanza puntuaciones líderes en olmOCR (80,3) y OmniDocBench (88,6), con el mayor throughput entre modelos OCR open source. Ambos modelos usan una arquitectura de fusión temprana y están disponibles en Hugging Face.

Falcon PerceptionFalcon OCRPBenchsegmentacióngroundingfusión tempranaOCR
Leer noticia original
Escríbenos por WhatsApp
Asesor VirtualAsesor Virtual 24h