연구에 따르면 GRPO, Dr. GRPO, DAPO는 언어 모델 추론 학습을 위한 서로 다른 방법처럼 보이지만, 사실은 표준편차라는 단 하나의 숫자를 조작하는 방식입니다.
표준편차는 프롬프트에 대한 답변의 불일치를 측정하며, 학습 시 모델은 문제를 여러 번 풀어 자동 검사기가 정답/오답을 판별합니다.
불일치가 크면 학습 효과가 크고, 모두 정답/오답이면 학습 효과가 없으며, 이 숫자는 학습 업데이트 크기, 문제 가중치, 시도 횟수를 결정합니다.