연구진은 시각-언어 모델(VLM)이 대화 참여자 간에 공유될 수 있는 것과 공유된 것을 구별할 수 있는지 조사했어요.
HCRC MapTask 대화 데이터셋을 활용해 VLM의 해석 일치 능력을 평가했으며, 지도 정보 접근성을 조작해 실험했어요.
실제 지도 이미지를 제공하면 성능이 향상되지만, 모델은 공유된 기반을 과대평가하는 경향을 보였어요.
연구 결과는 VLM이 대화 기록을 추적하는 대신 지도 상의 정적 참조 단서에 의존하는 것을 보여주며, Qwen3-VL-8B-Instruct 모델에서 두드러졌어요.