연구진은 LLM의 자기 평가를 다차원적으로 분석하여 기존의 신뢰도 예측 방식의 한계를 극복하고자 했습니다. 능력과 노력과 같은 능력 관련 평가 차원은 기존의 신뢰도보다 모델 실패 예측에 더 효과적이며, 특히 모델 규모가 큰 경우 안정적인 예측을 제공합니다. 작업 특성에 따라 가장 유용한 평가 차원이 달라지는데, 추론 작업에는 노력, 검색 작업에는 능력과 신뢰도가 높은 것으로 나타났습니다.