대규모 시각 언어 모델(LVLM)이 의료 분야에 유망하지만, 시각적 증거에 대한 충실한 근거 부족은 임상적 신뢰성에 대한 우려를 낳고 있습니다. 기존 시각적 귀인 방법은 LVLM 예측을 설명하지만, 모델의 결정에 영향을 미치는 실제 시각적 증거를 반영하는지 여부는 확인되지 않았습니다. 연구진은 전문가가 검증한 영역이 반사실적 편집을 통해 모델 예측에 대한 인과적 책임이 있는 CXR-VQA 샘플만 유지하는 인과적 평가 프레임워크를 개발했습니다.
11가지 귀인 방법, 6개의 오픈 소스 LVLM, 2가지 출력 모드(직접 답변 및 단계별 추론)를 활용한 결과, 기존 귀인 방법은 종종 LVLM이 사용하는 증거를 식별하지 못하는 것으로 나타났습니다. 연구진은 임상적으로 의미 있는 해부학적 영역을 불균형 최적 수송을 통해 지역화하고, 표적 개입을 통해 모델 출력에 대한 인과적 효과를 측정하는 개념 기반 귀인 방법인 MedFocus를 제안했습니다.
MedFocus는 공간, 개념 수준, 토큰 수준의 귀인 결과를 제공하며 기존 방법보다 훨씬 뛰어난 성능을 보이며 의료 LVLM에 대한 보다 신뢰할 수 있는 귀인을 위한 발걸음을 내디뎠습니다. 데이터와 코드는 https://github.com/gzxiong/medfocus/ 에서 확인할 수 있습니다.