Pulse · AI 뉴스

MDP-GRPO: 다중 제약 조건 따르기 위한 안정화된 그룹 상대 정책 최적화

Llama · 2026-06-04

연구진은 다중 제약 조건 따르기 강화 학습에서 z-score 그룹 정규화의 세 가지 문제점(낮은 분산 증폭, 평균 중심화 무시, 0 분산 붕괴)을 밝혀냈습니다.

MDP-GRPO는 다중 온도 샘플링, 이중 앵커 장점, 전망 이론 기반 shaping, 비대칭 KL 정규화를 통해 학습을 안정화합니다.

FollowBench, IFEval, 맞춤형 데이터셋 평가 결과, MDP-GRPO는 표준 GRPO보다 성능이 뛰어나 Llama-3.2-3B의 엄격한 제약 조건 만족도를 최대 5.0% 향상시켰습니다.

##강화학습##GRPO##다중제약##Llama

매일 핵심 AI 소식을 한국어로, 빠르게