텍스트 기반 객체 개수 세기(CAC) 모델이 자연어 프롬프트를 기반으로 객체를 세는 방식은 유연하지만, 현재 평가 방식은 객체 개수 오류에만 집중하여 프롬프트를 시각적 장면과 정확하게 연결하는 능력은 간과하고 있습니다.
연구 결과, 최신 CAC 모델들은 주어진 프롬프트에 따라 어떤 객체를 세야 하는지 판단하는 데 어려움을 겪으며, 텍스트 의미와 시각적 객체 표현 간의 불일치를 드러냈습니다.
새로운 평가 프레임워크인 PrACo++와 MUCCA 데이터셋을 통해 모델의 강점과 약점을 분석하고, 향후 의미론적으로 더 정합적인 아키텍처 개발을 위한 기반을 마련하고자 합니다.