Pulse · AI 뉴스

STARE: 서프라이즈 기반 토큰 수준 어드밴티지 재가중화를 통한 정책 엔트로피 안정화

STARE · 2026-06-18

연구진은 강화 학습 알고리즘 GRPO의 정책 엔트로피 붕괴 문제를 해결하기 위해 STARE(Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability)를 제안했어요.

STARE는 토큰 수준의 서프라이즈를 활용해 엔트로피에 민감한 토큰 집합을 식별하고, 어드밴티지를 재가중화하며, 엔트로피를 안정적으로 조절하는 게이트를 도입했어요.

1.5B~32B 모델 규모, Short CoT, Long CoT, Multi-Turn Tool Use 등 다양한 작업에서 STARE는 DAPO 등 기존 방식보다 4~8% 높은 정확도를 기록했어요.

##강화학습##LLM##STARE##엔트로피

매일 핵심 AI 소식을 한국어로, 빠르게