연구진은 LLM이 자신의 답변을 스스로 평가하는 능력이 이미 상당 부분 존재한다는 사실을 발견했어요. 소량의 데이터만으로도 LLM은 외부 판정단의 품질 평가 점수를 예측할 수 있어요. 자기 평가 능력 이끌어내기(SEE)라는 새로운 방법론을 통해 기존 LLM의 잠재력을 활용할 수 있어요.
SEE는 답변 품질 향상과 판정 예측을 결합한 강화 학습 단계와 답변은 유지하면서 예측을 개선하는 마스크 증류 단계를 포함하는 짧은 주기를 사용해요. 160개의 예시로 기존 강화 학습 방식보다 31배 적은 데이터로도 SEE는 외부 판정단의 교정 능력을 향상시키면서 답변 품질을 유지했어요.
연구 결과는 판정 기반 자기 평가를 획득하는 문제라기보다 이끌어내는 문제로 재정의해요. 이는 모델 내 토큰 분포에 명확하게 국부화되어 있으며, 훈련되지 않은 판정단에게도 안정적인 품질 인식을 나타내요.