연구진은 시각-언어 모델(VLM)이 대화 참여자 간의 공유 여부를 판단할 수 있는지 조사했어요.
HCRC MapTask 대화 데이터를 활용해 해석 일치 과제를 수행했으며, 지도 정보 접근성을 조작하여 실험했어요.
실제 지도 이미지를 제공하면 성능이 향상되지만, 모델은 공유된 내용을 과대평가하는 경향을 보였고, 이는 지도 내용에 기인한 것으로 나타났어요.
Qwen3-VL-8B-Instruct 모델에서 두드러지게 나타났으며, 지도 내용을 상호 이해의 증거로 간주하는 오류를 보였어요.