연구진은 기존 루브릭 기반 강화 학습(RLVR)의 한계를 지적하며, 정책 기반 루브릭 보상 프레임워크 POW3R을 제안했습니다. POW3R은 인간의 가중치를 유지하면서 현재 정책 학습에 유용한 기준의 가중치를 조정합니다. POW3R은 세 가지 정책과 두 데이터 세트에서 기존 GRPO보다 성능이 향상되었으며, 학습 단계를 줄이는 효과를 보였습니다.