Falcon Perception: Transformer de fusión temprana de 0.6B parámetros para grounding y segmentación de vocabulario abierto
El Technology Innovation Institute (TII) ha lanzado Falcon Perception, un modelo Transformer de 0.6 mil millones de parámetros que procesa parches de imagen y texto en una secuencia unificada mediante fusión temprana y máscara de atención híbrida. Produce instancias variables para grounding y segmentación a partir de prompts en lenguaje natural, superando a SAM 3 en benchmarks como SA-Co (68.0 Macro-F1) y PBench, especialmente en prompts complejos con OCR, relaciones espaciales y escenas densas. Además, introducen Falcon OCR, un modelo de 0.3B parámetros para reconocimiento óptico de caracteres que alcanza puntuaciones líderes en olmOCR y OmniDocBench con alto rendimiento en throughput. Ambos modelos son de código abierto, con PBench como nuevo benchmark diagnóstico. La arquitectura minimalista apuesta por datos y compute para escalar la percepción visual.