연구진은 방사선 보고서 생성(RRG)에서 모델이 이미지의 실제 병변 증거 없이 사전 정보나 우연한 상관관계를 이용하는 '영상 쇼트컷' 문제를 지적했어요.
SHOVIR 벤치마크는 MIMIC-CXR 및 PadChest-GR 데이터셋을 확장하여 이미지 영역별 CheXpert 라벨을 추가하고, 특정 영역을 가려 모델의 반응을 비교하여 쇼트컷 유형을 분석해요.
8개의 최첨단 VLM을 평가한 결과, 모델 아키텍처 및 데이터셋에 따라 쇼트컷 현상이 크게 다르며, 보고서 품질이 높다고 해서 공간적 정확도가 높은 것은 아님을 확인했어요.