연구진은 온라인 RL 방식의 단점을 보완한 G2D(GRPO to DPO) 파이프라인을 제안했습니다. G2D는 짧은 GRPO 워밍업 후 정적 선호도 데이터셋을 구축하고 DPO로 오프라인 미세 조정을 수행합니다.
Qwen2.5-7B, Llama-3.1-8B 모델에서 G2D는 적절한 워밍업 시 온라인 RL 방식인 GRPO를 능가하는 성능을 보이며, 컴퓨팅 비용은 4배 절감했습니다.
G2D는 MATH-500에서 62.4%의 정확도를 기록하며 GRPO(51.6%)를 10.8% 앞섰고, Llama-3.1-8B에서는 GRPO를 능가하는 성능을 보여주었습니다.
연구 결과는 오프라인-온라인 격차를 데이터 정보량 문제로 재해석하고, 적절한 난이도 조절을 통해 컴퓨팅 효율성을 높이는 방법을 제시합니다.