Pulse · AI 뉴스

RMGAP: 보상 모델의 일반화 성능 벤치마킹

arXiv cs.AI · 2026-05-03

연구진은 인간 피드백 기반 강화 학습에서 보상 모델의 일반화 성능을 평가하기 위한 RMGAP 벤치마크를 새롭게 공개했습니다.

RMGAP은 Chat, Writing, Reasoning, Safety 도메인에서 1,097개의 인스턴스를 포함하며, 다양한 사용자 선호도를 반영하도록 설계되었습니다.

24개의 최첨단 보상 모델 평가 결과, 최고 성능 모델조차도 49.27%의 Best-of-N 정확도를 기록하며, 보상 모델 일반화 성능 개선의 필요성을 보여주었습니다.

##보상모델##벤치마크##강화학습

매일 핵심 AI 소식을 한국어로, 빠르게