이 논문은 LLM 오류 예측 시 입력 모호성을 UQ 신호와 분리하는 방법을 제시했어요. 질문 답변(QA) 작업에서 6가지 UQ 지표를 실험한 결과, 명확한 질문보다 여러 가능한 답변이 있는 질문에서 오류 예측 성능이 낮아지는 것을 확인했어요. Gated Experts와 Selective Prediction을 활용해 금 표준 및 예측된 모호성 레이블을 오류 예측 파이프라인에 통합했어요.
모호성 정보는 모델 패밀리, 학습 및 평가 패러다임, 데이터셋, UQ 신호 원천에 관계없이 오류 예측 점수를 개선했어요. 표준 데이터셋에서 개별 UQ 지표의 PRR을 10점 이상 향상시켰어요. 이 연구는 LLM의 오류 예측 정확도를 높이는 데 기여할 수 있어요.