Pulse · AI 뉴스

LLM 강화 학습 시 divergence 정규화 재고찰

DRPO · 2026-06-08

연구진은 LLM 강화 학습(RL) 과정에서 발생하는 divergence 문제를 해결하기 위해 새로운 방법인 DRPO를 제안했어요. 기존 DPPO는 확률 변화에 기반한 hard mask를 사용했지만, DRPO는 이를 smooth quadratic regularizer로 대체하여 더 안정적인 학습을 가능하게 해요. 다양한 모델 규모와 환경에서 실험 결과, DRPO가 LLM RL 훈련의 안정성과 효율성을 향상시키는 것을 확인했어요.

DRPO는 기존 DPPO와 동일한 trust-region geometry를 유지하면서 diverging 업데이트를 완화하고 boundary를 넘어선 corrective signal을 제공해요. 이는 정책 업데이트 시 발생하는 오류를 줄여 학습 과정을 개선하는 데 기여해요.

기존 PPO나 GRPO는 ratio-clipping 메커니즘을 사용했지만, 긴 꼬리 단어(long-tailed vocabularies)에서는 정확한 distributional shift를 반영하지 못하는 한계가 있었어요. DRPO는 이러한 문제를 해결하고 LLM RL 훈련의 신뢰성을 높이는 데 목표를 두고 있어요.

##LLM##강화학습##DRPO##정책최적화

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기