연구진은 초기 성공 확률이 낮을 때 강화 학습을 통해 검증 가능한 보상(RLVR)을 사용하는 것이 훈련된 추론 모델의 새로운 작업 적응을 방해한다는 것을 발견했어요.
Tsallis $q$-로그를 사용하여 RLVR($q{=}0$)과 잠재 궤적에 대한 로그-마진-우도($q{=}1$) 사이를 보간하는 손실 패밀리 $J_Q$를 정의하고, 학습률에 관계없이 각 인스턴스를 독립적으로 재가중하는 스칼라 증폭 $P_{θ^{-q}}$를 도입했어요.
Gradient-Amplified RL (GARL)과 Posterior-Attenuated Fine-Tuning (PAFT) 두 가지 Monte Carlo 추정기를 개발하여 FinQA, HotPotQA, MuSiQue 데이터셋에서 GRPO보다 우수한 성능을 보였어요.