Pulse · AI 뉴스

Themis: 다국어 코드 보상 모델 훈련을 통한 유연한 다중 기준 점수화

Themis · 2026-05-02

연구진은 코드 생성에 대한 보상 모델(RM) 연구가 부족하다는 점에 주목하여, Themis-CodeRewardBench 벤치마크를 통해 5가지 기준과 8개 프로그래밍 언어에 걸쳐 코드 RM을 평가했습니다.

Themis-CodePreference 데이터셋(35만 쌍 이상의 코드 선호도)을 구축하고, 6억~320억 파라미터 규모의 다국어 코드 보상 모델인 Themis-RM을 훈련했습니다.

실험 결과, 다양한 선호도를 활용한 훈련과 다중 기준 훈련이 신뢰성 있는 코드 보상 모델링에 중요함을 확인했습니다.

##코드보상모델##다국어##코드생성##Themis

매일 핵심 AI 소식을 한국어로, 빠르게