연구진이 텍스트 기반 객체 개수 세기(TOOC)를 위한 실시간 프레임워크 'RT-Counter'를 개발했어요.
RT-Counter는 Visual Prototype Textualization(VPT) 모듈을 통해 시각적 특징을 텍스트 특징 공간에 투영하고 객체 수준의 시각-언어 모델의 성능을 향상시켰어요.
FSC147 데이터셋에서 기존 최고 성능 모델보다 7.4배 빠른 112.48 FPS의 속도를 보이면서도 MAE 13.30의 경쟁력 있는 정확도를 달성했어요.