연구진은 강화 학습 기반 검증 가능한 보상(RLVR)이 추론 작업에서 높은 정확도를 달성하지만, 다양성 부족(Pass@K 감소) 문제를 겪는다는 것을 확인했습니다.
UCPO는 RLVR의 정책 분포에 대한 조건부 균일성 페널티를 추가하여, 올바른 답변 내에서 확률 질량을 균등하게 분배하도록 유도하는 방법입니다.
UCPO는 세 가지 모델과 다섯 가지 수학적 추론 벤치마크에서 Pass@K와 다양성을 향상시키며, AIME24에서 Pass@64 기준으로 최대 10%의 절대적인 성능 향상을 달성했습니다.