다국어 추론 모델에서 Chain-of-Thought(CoT) 방식이 수학 및 논리 문제 해결에 효과적이지만, 시각 공간 추론에서는 성능이 떨어진다는 연구 결과가 나왔어요.
연구진은 17개의 모델을 13개의 시각 공간 벤치마크로 평가한 결과, CoT 프롬프트가 일관되게 성능을 저하시키는 것을 확인했어요.
No-Image++ 분석을 통해 모델들이 이미지 없이도 텍스트 기반 정보에 의존하여 시각적 세부 사항을 환각한다는 사실이 밝혀졌으며, 이는 시각 중심 추론 방식의 필요성을 강조해요.