연구진은 코드 생성에 대한 보상 모델(RM) 연구가 부족하다는 점에 주목하여, Themis-CodeRewardBench 벤치마크를 통해 5가지 기준과 8개 프로그래밍 언어에 걸쳐 코드 RM을 평가했습니다.
Themis-CodePreference 데이터셋(35만 쌍 이상의 코드 선호도)을 구축하고, 6억~320억 파라미터 규모의 다국어 코드 보상 모델인 Themis-RM을 훈련했습니다.
실험 결과, 다양한 선호도를 활용한 훈련과 다중 기준 훈련이 신뢰성 있는 코드 보상 모델링에 중요함을 확인했습니다.