연구진은 시각-언어 모델(VLM)이 추상적인 시각적 추론 벤치마크에서 실패하는 원인이 추론 능력 부족인지, 아니면 표현 능력 부족인지 조사했어요.
Componential-Grammatical(C-G) 패러다임을 통해 Bongard-LOGO 벤치마크를 기호적 추론 문제로 재구성하여 LLM에 기호적 입력을 제공했을 때 성능이 크게 향상되었어요.
연구 결과, 추상적인 시각적 추론에서 표현 능력이 주요 병목 현상이며, 기호적 입력이 제어된 진단적 상한선 역할을 할 수 있음을 보여주었어요.