Pulse · AI 뉴스

GRPO, Dr. GRPO, DAPO: 언어 모델 학습의 세 가지 방법, 단 하나의 숫자를 조작한다

GRPO · 2026-06-30

연구에 따르면 GRPO, Dr. GRPO, DAPO는 언어 모델 추론 학습을 위한 서로 다른 방법처럼 보이지만, 사실은 표준편차라는 단 하나의 숫자를 조작하는 방식입니다.

표준편차는 프롬프트에 대한 답변의 불일치를 측정하며, 학습 시 모델은 문제를 여러 번 풀어 자동 검사기가 정답/오답을 판별합니다.

불일치가 크면 학습 효과가 크고, 모두 정답/오답이면 학습 효과가 없으며, 이 숫자는 학습 업데이트 크기, 문제 가중치, 시도 횟수를 결정합니다.

##언어모델##학습##GRPO##DAPO

매일 핵심 AI 소식을 한국어로, 빠르게