Pulse · AI 뉴스

RVPO: 위험 감지 정렬을 위한 분산 정규화

Apple ML Research · 2026-05-08

연구진은 기존 RLHF 방법이 여러 목표 보상을 산술 평균으로 결합하여 제약 조건 간과에 취약하다고 지적했습니다.

RVPO(Reward-Variance Policy Optimization)는 분산 정규화를 통해 보상 간의 불일치를 줄여 위험 감지 프레임워크를 제시합니다.

연구진은 테일러 전개를 통해 RVPO가 여러 목표를 일관성 있게 정렬하는 데 효과적임을 입증했습니다.

##RLHF##강화학습##정렬##안전

매일 핵심 AI 소식을 한국어로, 빠르게