Pulse · AI 뉴스

REFT: RLVR 모델의 첫 토큰 다양화로 성능 향상

RLVR · 2026-05-27

연구진은 강화 학습과 검증 가능한 보상(RLVR)에서 정책의 첫 번째 토큰 다양화가 중요한 역할을 한다는 것을 밝혀냈어요.

REFT(Rollout Exploration with First-Token Diversification)는 정책의 상위 N개 후보 토큰에서 균일하게 샘플링하여 첫 번째 토큰을 다양화하는 방법으로, 기존 RLVR 파이프라인에 가볍게 추가돼요.

REFT는 0.5B~7B 모델과 다양한 난이도에서 DAPO 및 GRPO 기준선보다 Pass@1, Pass@8, Pass@64를 개선했어요.

##RLVR##강화학습##토큰##모델

매일 핵심 AI 소식을 한국어로, 빠르게