연구진은 기존 루브릭 기반 강화 학습(RLVR) 방식의 한계를 지적했어요. 인간이 부여한 중요도와 실제 최적화 신호로서의 유용성이 일치하지 않아 일부 기준은 과도하게 강조되고, 다른 기준은 활용도가 낮다는 문제점이에요. POW3R이라는 새로운 프레임워크를 제안하여 정책 학습 과정에서 루브릭 기준별 보상 가중치를 조정했어요. 실험 결과, POW3R은 기존 방식보다 더 나은 성능을 보였으며, 학습 시간도 단축했어요.
POWR3R은 인간이 부여한 가중치와 루브릭 범주 균형을 유지하면서, 정책의 출력 결과를 구별하는 기준에 더 많은 가중치를 부여하는 방식으로 작동해요. 이를 통해 GRPO 보상을 더욱 유용한 정보로 만들면서도 평가 목표는 유지해요.
세 가지 기본 정책과 두 가지 데이터 세트를 활용한 실험에서 POW3R은 30번의 비교 중 24번에서 기존 방식보다 우수한 성능을 보였어요. 루브릭 보상은 최종 답변에서 중요할 것이 무엇인지, 현재 정책을 가르치는 데 무엇이 도움이 되는지를 구별해야 한다는 점을 시사합니다.