Pulse · AI 뉴스

그룹 상대 정책 최적화(GRPO)의 Gradient Starvation: 그룹 평균 중심화가 실패하는 이유와 가장 간단한 해결책

Qwen · 2026-05-08

그룹 상대 정책 최적화(GRPO)에서 그룹 평균 중심화된 어드밴티지는 이진 보상 환경에서 Gradient Starvation 현상으로 인해 학습 신호를 받지 못할 수 있습니다.

연구진은 그룹 크기가 네 개인 경우, 로그 Qwen3.5-9B GSM8K 훈련에서 0.69의 Gradient Starvation 발생률을 관찰했습니다.

fixed-reference Sign 어드밴티지는 그룹 내 최소 한 개의 샘플이 성공할 확률을 높여 pass@G 실패 하강을 수행하며, 표준 DrGRPO보다 45.4점이 높은 정확도를 달성했습니다.

##강화학습##GRPO##GradientStarvation

매일 핵심 AI 소식을 한국어로, 빠르게