연구진은 생성형 검증기의 엄격도를 숨겨진 상태 조향을 통해 제어하고 개선하는 방법인 VerifySteer를 제안했어요. 검증기 엄격도는 검증 과정에서 오류를 놓치거나 정확한 추론을 거부하는 경향을 의미해요.
연구 결과, 검증기 엄격도는 검증 단락 경계 근처의 숨겨진 상태 신호를 통해 제어할 수 있으며, VerifySteer는 기존 방법보다 더 적은 연산량으로 성능을 낼 수 있어요.
ProcessBench와 Hard2Verify 데이터셋에서 VerifySteer는 프롬프트 최적화 및 활성화 조향 기반 모델보다 뛰어난 성능을 보였고, 검증기 미세 조정과 함께 사용하면 더욱 큰 효과를 얻을 수 있어요.