Pulse · AI 뉴스

RLHF의 숨겨진 단점: 가치 기반 온라인 피드백을 통한 보상 모델 자체 개선

SAVE · 2026-05-29

연구진은 보상 모델 훈련에 필요한 다양한 선호도 데이터 확보의 어려움을 해결하기 위해 SAVE 프레임워크를 제안했어요. SAVE는 가치 함수를 활용해 온라인 응답을 평가하고, 이를 보상 모델 훈련에 활용하는 방식이에요. 실험 결과, SAVE는 다양한 벤치마크에서 기존 방식보다 뛰어난 성능을 보였고, GRPO, RLOO, GSPO 등 다양한 RL 알고리즘과 정책 백본에서 일관된 개선 효과를 확인했어요.

##보상모델##RLHF##온라인학습##자기지도학습
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기