그룹 상대 정책 최적화(GRPO)에서 그룹 평균 중심화된 어드밴티지는 이진 보상 환경에서 Gradient Starvation 현상으로 인해 학습 신호를 받지 못할 수 있습니다.
연구진은 그룹 크기가 네 개인 경우, 로그 Qwen3.5-9B GSM8K 훈련에서 0.69의 Gradient Starvation 발생률을 관찰했습니다.
fixed-reference Sign 어드밴티지는 그룹 내 최소 한 개의 샘플이 성공할 확률을 높여 pass@G 실패 하강을 수행하며, 표준 DrGRPO보다 45.4점이 높은 정확도를 달성했습니다.