연구진은 LLM 강화 학습(RL) 과정에서 발생하는 divergence 문제를 해결하기 위해 새로운 방법인 DRPO를 제안했어요. 기존 DPPO는 확률 변화에 기반한 hard mask를 사용했지만, DRPO는 이를 smooth quadratic regularizer로 대체하여 더 안정적인 학습을 가능하게 해요. 다양한 모델 규모와 환경에서 실험 결과, DRPO가 LLM RL 훈련의 안정성과 효율성을 향상시키는 것을 확인했어요.
DRPO는 기존 DPPO와 동일한 trust-region geometry를 유지하면서 diverging 업데이트를 완화하고 boundary를 넘어선 corrective signal을 제공해요. 이는 정책 업데이트 시 발생하는 오류를 줄여 학습 과정을 개선하는 데 기여해요.
기존 PPO나 GRPO는 ratio-clipping 메커니즘을 사용했지만, 긴 꼬리 단어(long-tailed vocabularies)에서는 정확한 distributional shift를 반영하지 못하는 한계가 있었어요. DRPO는 이러한 문제를 해결하고 LLM RL 훈련의 신뢰성을 높이는 데 목표를 두고 있어요.