Pulse · AI 뉴스

모든 평가 기준이 똑같이 효과적인 것은 아니다: 정책 기반 루브릭 보상, RLVR

arXiv cs.AI · 2026-05-20

연구진은 기존 루브릭 기반 강화 학습(RLVR)의 한계를 지적하며, 정책 기반 루브릭 보상 프레임워크 POW3R을 제안했습니다. POW3R은 인간의 가중치를 유지하면서 현재 정책 학습에 유용한 기준의 가중치를 조정합니다. POW3R은 세 가지 정책과 두 데이터 세트에서 기존 GRPO보다 성능이 향상되었으며, 학습 단계를 줄이는 효과를 보였습니다.

##RLVR##루브릭##강화학습##POW3R

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기