연구진은 영상 보고서 생성(RRG) 과정에서 MLLM이 생성하는 후보 보고서 중 기본 디코딩으로 선택된 보고서보다 임상적으로 더 나은 보고서가 존재한다는 것을 확인했어요.
Clinical Consensus Selection (CCS)은 여러 후보 보고서를 샘플링하고, 이미지-보고서 훈련된 멀티모달 임베더를 통해 임상적 합의를 측정하여 최적의 보고서를 선택하는 프레임워크예요.
세 가지 데이터셋과 다양한 영상 MLLM에서 CCS는 단일 경로 디코딩 및 Best-of-N 기준선보다 성능을 향상시켰으며, 특히 임상 지표에서 뚜렷한 개선을 보였어요.