작은 instruct-tuned LLM은 최소한의 유도 하에 언어적 자신감의 퇴화를 보이며, 95% 이상의 천장 비율, 거의 무작위 Type-2 AUROC, 유효하지 않은 유효성 프로필을 나타냅니다.
연구진은 자신감 기반 감독 미세 조정(CSFT)이 내부 정보와 언어적 출력 간의 격차를 줄일 수 있는지 확인하기 위해 자가 일관성에서 파생된 타겟을 사용했습니다.
사후 구조를 통해 2,000개의 보정 항목을 모두 사용하여 훈련한 결과, TriviaQA에서 0.774의 AUROC2를 가진 이진 언어적 정확성 판별기를 만들어 10개 샘플 자가 일관성 신호(AUROC2 = 0.999)를 단일 패스 판독값으로 압축했습니다.