연구진은 다중 목표 보상 집계 시 발생할 수 있는 제약 조건 무시 문제를 해결하기 위해 RVPO(Reward-Variance Policy Optimization)라는 위험 감지 프레임워크를 제안했습니다.
RVPO는 분산 페널티를 적용하여 목표 보상의 일관성을 최대화하며, HealthBench에서 GDPO 대비 0.261의 향상된 점수를 기록했습니다.
Qwen2.5-3B/7B/14B 모델을 사용하여 의료 및 과학적 추론 평가를 진행했으며, 다양한 모델 크기에서 제약 조건 무시를 완화하는 효과를 입증했습니다.