연구진은 기존 RLHF 방법이 여러 목표 보상을 산술 평균으로 결합하여 제약 조건 간과에 취약하다고 지적했습니다. RVPO(Reward-Variance Policy Optimization)는 분산 정규화를 통해 보상 간의 불일치를 줄여 위험 감지 프레임워크를 제시합니다. 연구진은 테일러 전개를 통해 RVPO가 여러 목표를 일관성 있게 정렬하는 데 효과적임을 입증했습니다.