연구진은 RLVR(Verifiable Rewards with Reinforcement Learning) 학습 시 토큰 선택 전략의 중요성을 분석했어요.
새로운 지표인 상대적 놀람 지수(RSI, Relative Surprisal Index)를 제안하여 토큰의 엔트로피와 선택된 토큰의 확률을 결합했어요.
RSI-S(RSI Selection)라는 토큰 필터링 방법을 통해 기존의 상반되는 학습 전략을 조화시키고 AIME 및 AMC 벤치마크에서 평균 정확도를 2~3% 향상시켰어요.