연구진은 GRPO 기반 LLM 강화 학습 시 정책 엔트로피 붕괴 문제를 해결하기 위해 STARE를 제안했어요. STARE는 배치 내 놀라움 분위수에 따라 엔트로피에 민감한 토큰을 식별하여 이점을 재가중화하는 방식이에요. AIME24 및 AIME25 벤치마크에서 DAPO 등 기존 방식보다 평균 정확도 4~8% 향상된 성능을 보여줬어요.
STARE는 정책 엔트로피를 목표 범위 내로 유지하며, 모델 크기 1.5B~32B, 다양한 작업 유형에서 안정적인 학습을 가능하게 해요. 반사 토큰과 응답 길이가 함께 증가하며 탐험-활용 균형을 유지하는 것으로 나타났어요.
STARE 관련 코드는 GitHub에서 확인할 수 있으며, LLM 강화 학습의 잠재력을 더욱 높이는 데 기여할 것으로 기대돼요.