본 연구는 검증 가능한 보상(verifiable rewards)을 활용한 강화 학습(RLVR)의 학습 효율성을 높이는 새로운 기법, Reference-Sampled Boltzmann Projection을 제안합니다.
BOLT라는 새로운 절차를 통해 기존의 복잡한 과정을 단순화하고, 학습 과정에서 발생하는 다양한 오류를 분석하여 개선점을 제시합니다.
Qwen 모델을 활용한 실험 결과, 목표 정책과 일치하는 가중치, one-shot 성능 포화, 샘플러 개선 효과, 최적화 시간 절감 등을 확인했습니다.