연구진은 수학 문제 해결 과정에서 올바른 단계를 보상하는 '과정 감독' 기법을 적용하여 새로운 최고 성능을 달성한 모델을 개발했어요. 기존의 최종 정답만을 보상하는 '결과 감독' 방식보다 성능이 향상되었을 뿐만 아니라, 인간이 인정하는 추론 과정을 직접 학습하도록 돕는 효과도 얻었어요. 이 기법은 모델의 정렬(alignment)에도 긍정적인 영향을 미쳐, 인간의 승인을 받는 단계별 추론 과정을 생성하도록 훈련했어요.