연구진은 다중 제약 조건 따르기 강화 학습에서 z-score 그룹 정규화의 세 가지 문제점(낮은 분산 증폭, 평균 중심화 무시, 0 분산 붕괴)을 밝혀냈습니다.
MDP-GRPO는 다중 온도 샘플링, 이중 앵커 장점, 전망 이론 기반 shaping, 비대칭 KL 정규화를 통해 학습을 안정화합니다.
FollowBench, IFEval, 맞춤형 데이터셋 평가 결과, MDP-GRPO는 표준 GRPO보다 성능이 뛰어나 Llama-3.2-3B의 엄격한 제약 조건 만족도를 최대 5.0% 향상시켰습니다.