연구진은 강화 학습 알고리즘 GRPO의 정책 엔트로피 붕괴 문제를 해결하기 위해 STARE(Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability)를 제안했어요.
STARE는 토큰 수준의 서프라이즈를 활용해 엔트로피에 민감한 토큰 집합을 식별하고, 어드밴티지를 재가중화하며, 엔트로피를 안정적으로 조절하는 게이트를 도입했어요.
1.5B~32B 모델 규모, Short CoT, Long CoT, Multi-Turn Tool Use 등 다양한 작업에서 STARE는 DAPO 등 기존 방식보다 4~8% 높은 정확도를 기록했어요.