Pulse · AI 뉴스

RVPO: 위험 감지 정렬을 위한 분산 정규화

Qwen · 2026-05-07

연구진은 다중 목표 보상 집계 시 발생할 수 있는 제약 조건 무시 문제를 해결하기 위해 RVPO(Reward-Variance Policy Optimization)라는 위험 감지 프레임워크를 제안했습니다.

RVPO는 분산 페널티를 적용하여 목표 보상의 일관성을 최대화하며, HealthBench에서 GDPO 대비 0.261의 향상된 점수를 기록했습니다.

Qwen2.5-3B/7B/14B 모델을 사용하여 의료 및 과학적 추론 평가를 진행했으며, 다양한 모델 크기에서 제약 조건 무시를 완화하는 효과를 입증했습니다.

##강화학습##다중목표##정렬##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기