연구진은 LLM 강화 학습(RL) 과정에서 발생하는 분산 정규화 문제를 해결하기 위해 DRPO(Divergence Regularized Policy Optimization)를 제안했어요. 기존 DPPO 방식의 경직된 마스크를 부드러운 정규화 방식으로 개선하여 안정성과 효율성을 높였어요. 다양한 모델 규모와 환경에서 실험을 거쳐 DRPO의 효과를 입증했어요.