연구진은 PRM 훈련 없이도 LLM의 과정 점수를 활용해 수학적 추론 성능을 높이는 Chunk-Level Guided Generation 기법을 제안했어요.
이 기법은 작은 모델이 샘플링한 후보 덩어리들을 큰 LLM이 likelihood를 통해 점수화하여, 오류 전파를 막고 생성 방향을 조절해요.
Contrastive-Guided Selection (CGS) 방식은 작은 모델의 선호도를 고려하여 큰 모델의 선호도를 반영해, 기존 방식보다 최대 28%p 성능 향상을 보여줬어요.
CGS는 PRM guided search와 유사한 수준의 성능을 내면서도 더 짧은 추론 과정을 생성하며, reward model 훈련 없이도 높은 정확도를 달성했어요.