연구진은 LLM이 언어적 확신 표현을 통해 실제 불확실성을 제대로 반영하는지 조사했어요. 기존 연구에서 LLM이 인간과 유사한 방식으로 확신 표현을 사용하지 못하는 문제가 있었죠.
연구는 LLM이 특정 확신 표현을 어떤 확신 수준과 연결하는지, 그리고 문맥적 요인이 이 능력에 미치는 영향을 분석했어요. 7가지 지표를 활용해 LLM의 내부적 확신 수준(MIC)의 안정성을 평가했죠.
분석 결과, LLM은 모델 중심적인 확신 표현 해석에도 불구하고, 다양한 상황에서 확신 수준을 제대로 구분하지 못하고 일관성 없는 결과를 보여줬어요. 이는 LLM의 신뢰성과 안정성을 높이기 위해 확신 표현 사용을 개선해야 함을 시사합니다.