연구진은 인간 피드백 기반 강화 학습에서 보상 모델의 일반화 성능을 평가하기 위한 RMGAP 벤치마크를 새롭게 공개했습니다.
RMGAP은 Chat, Writing, Reasoning, Safety 도메인에서 1,097개의 인스턴스를 포함하며, 다양한 사용자 선호도를 반영하도록 설계되었습니다.
24개의 최첨단 보상 모델 평가 결과, 최고 성능 모델조차도 49.27%의 Best-of-N 정확도를 기록하며, 보상 모델 일반화 성능 개선의 필요성을 보여주었습니다.