Pulse · AI 뉴스

그룹 상대 정책 최적화의 이점 붕괴: 진단 및 완화

GRPO · 2026-05-20

연구진은 그룹 상대 정책 최적화(GRPO)의 이점 붕괴 문제를 진단하고 해결하기 위해 Advantage Collapse Rate(ACR)라는 새로운 지표를 제시했어요. ACR은 훈련 배치 중 효과적인 기울기를 얻지 못하는 비율을 측정하며, 모델 규모에 따라 훈련 정체와 최종 성능을 예측하는 것으로 나타났어요.

ACR을 실시간으로 모니터링하여 가상 보상 샘플을 주입하는 Adaptive Virtual Sample Policy Optimization(AVSPO) 기법을 제안하여 GRPO의 이점 붕괴를 58~63% 감소시켰어요.

AVSPO는 GRPO 대비 4~6%p의 정확도 향상을 가져왔으며, 평가된 외부 도메인 작업에서도 일반화 성능을 유지했어요.

##RLVR##GRPO##AVSPO##LLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기