Pulse · AI 뉴스

LLM 강화 학습 시 분산 정규화 재고찰

Divergence Regularized Policy Optimization · 2026-06-09

연구진은 LLM 강화 학습(RL) 과정에서 발생하는 분산 정규화 문제를 해결하기 위해 DRPO(Divergence Regularized Policy Optimization)를 제안했어요. 기존 DPPO 방식의 경직된 마스크를 부드러운 정규화 방식으로 개선하여 안정성과 효율성을 높였어요. 다양한 모델 규모와 환경에서 실험을 거쳐 DRPO의 효과를 입증했어요.

##LLM##강화학습##DRPO##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기