Pulse · AI 뉴스

VLM 평가자는 순위를 매길 수 있지만 점수를 매길 수 없습니다: 다중 모드 평가의 작업 의존적 불확실성

arXiv cs.CV · 2026-04-28

연구에서는 비전-언어 모델(VLM)이 다중 모드 시스템의 자동 평가자로 사용될 때, 점수가 신뢰도를 나타내지 못한다는 문제를 분석했어요.

Conformal prediction 기법을 활용하여 VLM 평가자의 점수를 보정된 예측 구간으로 변환하고, 작업 유형에 따른 불확실성 정도를 파악했어요.

연구 결과, 평가 불확실성은 작업 유형에 따라 크게 달라지며, 차트 및 수학적 추론과 같은 작업에서는 점수 범위의 70%까지 확장되는 것을 확인했어요.

##VLM##평가##불확실성##다중모드##ConformalPrediction

매일 핵심 AI 소식을 한국어로, 빠르게