연구진은 강화 학습 기반 검증 가능한 보상(RLVR) 학습 시 발생하는 불안정성과 수렴 문제를 분석했습니다. 하드 클리핑 방식이 경계선 근처의 유용한 신호를 제거하는 주요 병목 현상임을 밝혀냈습니다. Near-boundary Stochastic Rescue(NSR) 기법을 제안하여 경계선 근처의 토큰을 확률적으로 복구함으로써 성능을 향상시켰습니다.
NSR은 기대값 기반의 그래디언트 감쇠보다 경계선 부근의 확률적 복구 메커니즘이 효과적임을 입증했습니다. 7B~30B 모델 크기, Dense 및 MoE 아키텍처에서 실험을 통해 DAPO, GSPO 등 기존 방식 대비 안정적인 성능 향상을 확인했습니다.
NSR은 플러그 앤 플레이 방식으로 적용 가능하며, RLVR 학습의 실질적인 성능 개선에 기여할 것으로 기대됩니다.