Falcon Perception: Transformer de fusión temprana de 0.6B parámetros para grounding y segmentación de vocabulario abierto
El Technology Innovation Institute (TII) ha presentado Falcon Perception, un modelo Transformer de 0.6 mil millones de parámetros que integra visión y lenguaje mediante fusión temprana en una sola secuencia, utilizando una máscara de atención híbrida para procesar parches de imagen y texto. Este modelo logra un 68.0 Macro-F1 en el benchmark SA-Co, superando a SAM 3 especialmente en prompts complejos con atributos, OCR, relaciones espaciales y escenas densas, según el nuevo benchmark diagnóstico PBench. Además, lanzan Falcon OCR, un modelo de 0.3B parámetros optimizado para reconocimiento óptico de caracteres que alcanza puntuaciones líderes en olmOCR y OmniDocBench con el mayor throughput entre modelos open source. Estos avances promueven arquitecturas simples y escalables para sistemas de percepción sin pipelines modulares complejos.