연구진은 의료 시각 질의응답(VQA)에서 MLLM의 과신뢰 문제를 해결하기 위해 새로운 훈련 기반 프레임워크를 제안했어요. Brier 스타일 교정 항, 앵커 정규화, 이미지-텍스트 정렬, KL 기반 모델 안정화 항을 결합한 복합 손실 함수를 사용해 모델을 미세 조정했어요. 세 가지 의료 VQA 벤치마크에서 교정 오류를 60% 이상 줄이고, 판별력을 26% 이상 향상시키며 예측 정확도를 유지했어요.