Pulse · AI 뉴스

RM 숨겨진 상태 활용, 더 정확한 보상 추정 방법 제시

Graph-based Advantage Estimation · 2026-06-09

연구진이 인간 피드백 기반 강화 학습(RLHF)의 정확도를 높이는 새로운 방법, Representation-Aware Advantage Estimation을 제안했어요. 이 방법은 보상 모델(RM)의 숨겨진 상태를 활용해 샘플 간의 미묘한 선호도 차이를 파악하고, 더 나은 보상 추정을 가능하게 해요.

Graph-based Advantage Estimation(GraphAE)을 통해 샘플 그룹을 그래프로 표현하고, RM 숨겨진 공간에서의 유사성을 기반으로 샘플 간의 관계를 분석해요. 이를 통해 각 샘플은 주변 샘플의 정보를 활용하여 더 정확한 보상을 계산할 수 있어요.

GraphAE는 기존 RL 알고리즘에 쉽게 통합할 수 있으며, Arena-Hard-v0.1에서 최대 6.3%, AlpacaEval 2.0에서 8.27% 성능 향상을 보여줘 RM 표현을 활용하는 것이 효율적이고 강력한 RLHF임을 입증했어요.

##RLHF##강화학습##보상모델##GraphAE
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기