FalconPerception 연구팀은 이미지 패치와 텍스트를 통합 처리하는 0.6B 파라미터의 새로운 Transformer 모델을 공개했습니다. 이 모델은 기존 파이프라인 방식의 문제점을 해결하고, 단일 백본으로 시각적 이해와 언어 모델링을 동시에 수행합니다.
Falcon Perception은 이미지 토큰 간 양방향 상호작용을 통해 글로벌 시각적 맥락을 구축하고, 텍스트와 작업 토큰은 이전 요소에 인과적으로 연결하여 효율적인 예측을 가능하게 합니다.
연구팀은 SA-Co 벤치마크에서 68.0의 Macro-F1을 달성했으며, Falcon OCR 모델은 olmOCR과 OmniDocBench에서 각각 80.3과 88.6의 높은 점수를 기록하며 오픈 소스 OCR 모델 중 최고 수준의 처리량을 보였습니다.