연구진은 강화 학습과 검증 가능한 보상(RLVR)에서 정책의 첫 번째 토큰 다양화가 중요한 역할을 한다는 것을 밝혀냈어요.
REFT(Rollout Exploration with First-Token Diversification)는 정책의 상위 N개 후보 토큰에서 균일하게 샘플링하여 첫 번째 토큰을 다양화하는 방법으로, 기존 RLVR 파이프라인에 가볍게 추가돼요.
REFT는 0.5B~7B 모델과 다양한 난이도에서 DAPO 및 GRPO 기준선보다 Pass@1, Pass@8, Pass@64를 개선했어요.