ABACUS는 객체 수 세기, 군중 수 세기, 지칭 표현 수 세기, 수에 충실한 이미지 생성을 위한 통일된 비전-언어 모델입니다. 벤치마크별 학습 없이도 다양한 객체 수 세기 작업을 수행합니다.
기존 30억 파라미터 통일된 기반 모델을 활용하여 객체 위치 파악 작업을 위해 밀도 인식 어댑티브 확대, 경계 인식 GRPO, 순환 GRPO 전략 등 3가지 핵심 혁신을 적용했습니다.
ABACUS는 7개 벤치마크에서 최고 성능을 달성하며, 기존의 특정 작업 전문가 및 더 큰 범용 모델을 능가했습니다.