연구진은 시각-언어 모델의 교차 시점 공간 추론 약점을 개선하기 위해 시각적 사고를 활용하는 방법을 연구했어요. View Dropout (VDrop)이라는 새로운 훈련 기법을 제안하여 모델이 답변 시 시각적 증거를 활용하도록 유도하고, 시각적 사고 유형별 효과를 분석했어요. 합성 데이터로 훈련하고 실제 환경 벤치마크에서 평가한 결과, VDrop과 함께 패노라마 시각적 사고가 가장 효과적인 성능을 보였어요.