연구진은 시각-언어 모델의 교차 뷰 공간 추론 약점을 개선하기 위해 시각적 사고를 도입했지만, 모델이 시각적 증거를 무시하는 문제점이 발견됐습니다. 이 문제를 해결하기 위해 통일된 다중 모드 모델(UMM)을 활용하여 시각적 사고를 유도하는 View Dropout(VDrop) 훈련 기법을 제안했습니다. 연구 결과, VDrop과 함께 파노라마 시각적 사고가 가장 효과적이며, 실제 환경에서의 일반화 성능을 향상시키는 것으로 나타났습니다.
VDrop은 훈련 과정에서 입력 뷰의 일부를 숨겨 모델이 답변 시 시각적 사고 이미지를 활용하도록 유도하는 기술입니다. 이를 통해 모델은 언어적 추론에만 의존하는 것이 아니라 시각적 정보를 적극적으로 활용하게 됩니다.
파노라마 시각적 사고는 합성 데이터로 훈련하고 실제 환경 벤치마크에서 평가하여 가장 유용하고 학습 가능한 조합으로 확인되었으며, 기존 방식 대비 뛰어난 일반화 성능을 보였습니다.