Pulse · AI 뉴스

RUBRIC-ARROW: 교차 점수 기반 보상 모델링을 통한 LLM 추가 학습

RUBRIC-ARROW · 2026-05-27

연구진은 주관적이고 검증 불가능한 환경에서 LLM 추가 학습에 필요한 점수 신호 확보의 어려움을 해결하기 위해 RUBRIC-ARROW 프레임워크를 제안했어요.

RUBRIC-ARROW는 교차 점수 생성기 및 판단기를 함께 학습하며, pairwise 선호도 데이터만을 활용한 강화 학습 단계를 거쳐 점수 모델의 정확도를 높여요.

실험 결과, RUBRIC-ARROW는 경쟁력 있는 보상 모델링 정확도를 달성하고, 다운스트림 정책 추가 학습에서 일관된 성능 향상을 보여줬어요.

##LLM##강화학습##보상모델링##rubric

매일 핵심 AI 소식을 한국어로, 빠르게