연구진이 LLM의 불확실성 추정을 위한 새로운 방법론 'Clustered Self-Assessment'을 제안했어요. 이 방법은 생성된 답변들을 의미론적 클러스터로 묶어 객관식 질문 형태로 구성하고, LLM이 각 답변에 부여하는 확률을 신뢰도 지표로 활용해요.
기존 방식보다 직관적이며, 적은 샘플로도 우수한 성능을 보여줘 효율적이에요. 2개의 추가 샘플만으로도 기존 방식과 경쟁력 있는 성능을 달성했어요.
다양한 모델과 데이터셋에서 실험한 결과, 기존 방식보다 일관되게 뛰어난 성능을 보였으며, LLM의 자체 평가 능력을 효과적으로 활용하는 것으로 나타났어요.