연구에서는 비전-언어 모델(VLM)이 다중 모드 시스템의 자동 평가자로 사용될 때, 점수가 신뢰도를 나타내지 못한다는 문제를 분석했어요. Conformal prediction 기법을 활용하여 VLM 평가자의 점수를 보정된 예측 구간으로 변환하고, 작업 유형에 따른 불확실성 정도를 파악했어요. 연구 결과, 평가 불확실성은 작업 유형에 따라 크게 달라지며, 차트 및 수학적 추론과 같은 작업에서는 점수 범위의 70%까지 확장되는 것을 확인했어요.