연구진은 추론 모델의 자기 개선을 위한 새로운 방법인 자기 지도 검증(STV)을 제안했어요. STV는 모델이 스스로 생성한 오류를 감지하는 능력을 향상시켜 검증-수정 루프(V-R)와 자기 학습의 성능을 높이는 데 목표를 두고 있어요.
기존 검증 방식의 한계를 극복하기 위해, 모델이 참조 솔루션을 통해 오류를 감지할 수 있다는 점을 활용하여 검증기를 학습시켜 스스로의 판단을 모방하도록 만들었어요.
테스트 시간에서는 STV가 어려운 문제에 대한 V-R 루프를 크게 개선하고, 학습 시간에서는 검증기의 피드백을 활용한 ViL(verifier-in-the-loop) 훈련을 통해 성능을 더욱 향상시켰어요.
STV는 어려운 수학 문제에서 정확도를 두 배로 높이고, 과학적 추론 작업에서는 1.5%에서 21%로 14배 향상시키는 놀라운 성과를 보여주며, 자기 지도 검증이 추론 능력의 새로운 지평을 열 수 있음을 시사해요.