연구진은 강화 학습(RL)이 LLM의 추론 능력을 향상시키는 데 있어 새로운 전략을 가르치는 것이 아니라 기존의 해결책 중 확률을 재분배하는 역할을 한다는 것을 밝혀냈습니다.
토큰 수준 분석 결과, RL은 모델이 불확실한 의사 결정 지점에서만 예측 가능한 수정을 가하며, 이는 전체 토큰 위치의 1~3%에 불과하고, 모델의 상위 5개 대안 내에 포함됩니다.
연구진은 이러한 통찰력을 바탕으로 ReasonMaxxer라는 RL-free 방법을 개발하여, 기존 RL 성능을 능가하면서도 훈련 비용을 3배 이상 절감했습니다.