연구진은 임상 시각-언어 모델(VLM)의 안전한 배포를 위해 필요한 불확실성 추정(UE)의 신뢰성을 평가했어요.
8가지 UE 방법과 12가지 VLM을 임상 시각 질의응답(VQA) 작업에 대해 벤치마킹한 결과, UE 품질은 UE 방법 자체의 특성이 아니라 모델 정확도를 따르는 것으로 나타났어요.
연구진은 모델의 취약성을 진단하는 도구로서 UE를 제시하고, 안전한 임상 배포를 위한 평가 방법으로 모델 교란(perturbation) 기반 평가를 제안했어요.