정책 그래디언트 강화 학습에서 실제 보상을 정확히 정의하는 경우가 드물기 때문에 불완전한 프록시 보상에 의존하는 경우가 많아요. 연구 결과, 보상 오류는 기존의 관점에서 해로운 것 외에도 무해하거나 오히려 도움이 될 수 있으며, 정책이 중간 정도의 실제 보상을 가진 출력 근처에 멈추는 것을 방지할 수 있어요. 이 연구는 RLHF에서 보상 모델 평가 지표를 개발하고 검증 가능한 보상이 있는 환경에서 보상 설계를 위한 통찰력을 제공해요.