연구진은 주관적이고 검증 불가능한 환경에서 LLM 추가 학습에 필요한 점수 신호 확보의 어려움을 해결하기 위해 RUBRIC-ARROW 프레임워크를 제안했어요.
RUBRIC-ARROW는 교차 점수 생성기 및 판단기를 함께 학습하며, pairwise 선호도 데이터만을 활용한 강화 학습 단계를 거쳐 점수 모델의 정확도를 높여요.
실험 결과, RUBRIC-ARROW는 경쟁력 있는 보상 모델링 정확도를 달성하고, 다운스트림 정책 추가 학습에서 일관된 성능 향상을 보여줬어요.