Pulse · AI 뉴스

RLVR 안정성 및 Winner Advantage Policy Optimization에 대한 Gradient 관점

layer6ai-labs · 2026-06-15

연구진은 강화 학습에서 검증 가능한 보상(RLVR) 방식의 불안정성을 분석하고 새로운 최적화 기법인 Winner Advantage Policy Optimization(WAPO)을 제안했어요. WAPO는 긍정적인 보상만으로 정책을 업데이트하여 학습 안정성을 개선하고 다양한 모델에서 기존 방식과 유사하거나 더 나은 성능을 보여줘요. 코드 공개는 GitHub에서 확인할 수 있어요.

RLVR 방식은 언어 모델의 추론 능력을 향상시키지만, 기존 최적화 방식은 붕괴되기 쉬운 문제가 있었어요. 연구진은 토큰 수준의 gradient 역학을 분석하여 이러한 불안정성을 예측하는 분류 체계를 개발했어요.

WAPO는 현재 정책 하에서 토큰 분포와 advantage의 부호에 따라 안정성이 결정된다는 점을 발견하고, 이를 바탕으로 긍정적인 advantage만으로 업데이트하는 간단한 온라인 clipped policy-gradient objective를 제안했어요.

##강화학습##RLVR##WAPO##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기