AI가 인간 프로그래머를 모두 이기는 경쟁 프로그래밍 대회에서 우위를 점한 GRPO 솔루션이 공개됐어요.
GRPO는 여러 단계의 에이전트 워크플로우에서 학습을 안정화하는 RL 알고리즘으로, 상대적 순위 기반으로 모델을 업데이트해요.
기존 RL 방식의 늦은 보상 문제를 해결하기 위해 즉각적인 보상과 지연된 수정을 도입하여 학습 속도와 안정성을 높였어요.
Google의 Gemini 3 Deep Think가 8등을 차지한 가운데, GRPO는 경쟁 프로그래밍 대회에서 인간 참가자를 꾸준히 능가하는 최초의 AI 시스템이에요.