연구진은 Vision-Language 모델(VLM)의 시각적 계수 능력 부족 현상을 분석하여, 모델이 보기에 개별 객체를 인식하고 크기를 파악하는 데는 능숙하지만, 이를 상징적인 토큰에 매핑하는 데 어려움을 겪는다는 사실을 밝혀냈습니다.
실험 결과, VLM의 시각적 백본은 객체의 양을 잘 구분하지만, 모델은 보편적인 숫자 공간을 학습하지 못하고 모달리티별 통계적 공간을 학습하여 새로운 양에 대한 상호 모달 접지(cross-modal grounding)를 방해합니다.
연구진은 데이터 규모 확대만으로는 해결되지 않으며, 통일된 표현을 강제하는 유도적 사전지식(inductive priors)이 필요하다고 제안하며, 이는 최신 모델에서도 동일한 문제가 발생함을 확인했습니다.