연구진은 다중 모드 체인 오브 씽킹(CoT) 추론의 효과를 12가지 작업에서 22개 모델을 통해 분석했어요. 시각적 작업에서는 CoT가 시각적 위치 파악, 객체 세기 성능을 저하시키는 등 부작용을 일으키지만, 수학, 과학, 다중 이미지 추론에는 효과적이에요. 현재 다중 모드 CoT는 시각적 추론이 주요 병목 현상이며, 시각적 성찰이 지속적으로 감소하는 '가볍게 보고, 무겁게 생각하기' 패턴을 보입니다.