연구진은 활성화 오라클의 신뢰도 추정 방법 6가지를 조사하고 교정 정도를 평가했어요. 실험 결과, 부트스트랩 모드 빈도가 가장 교정된 방법으로 나타났으며, Qwen3-8B에서 ECE가 5.7%로, 답변 단어 로그 확률 대비 25.5%로 개선됐어요. 연구 코드는 GitHub에서 공개됐으며, 로그 확률 기준은 비용 효율적인 신호로 활용 가능해요.