연구진은 언어 모델의 신뢰성 평가를 위해 교정 오류를 주로 사용하지만, 교정 오류가 낮다고 해서 의사 결정 규칙이 반드시 신뢰할 수 있는 것은 아니라고 지적했어요. TOFU 벤치마크를 활용해 교정 지표(ECE, MCE, Brier)와 Integrated Gradients, Local Mutual Information을 이용한 의사 결정 규칙 신뢰도를 측정했어요.
미세 조정된 모델은 사전 학습 모델보다 낮은 교정 오류(ECE ~ 0.04)를 보였고, 언학습 후에도 낮은 교정 오류를 유지했지만, 의사 결정 시 상관관계 기반 토큰 의존도가 증가했어요.
본 연구는 언학습 환경에서도 좋은 교정 상태와 상관관계 기반 의사 결정 규칙이 공존할 수 있음을 보여주며 신뢰도 역설을 확장하고, 언어 모델 신뢰성 평가에 대한 새로운 시각을 제시해요.