연구진은 LLM의 추론 능력을 강화하는 RLVR 분야에서 부정 샘플링의 한계를 지적하고, 긍정적 데이터만 활용하는 POPO(Positive-Only Policy Optimization) 프레임워크를 제안했습니다.
POPO는 bounded importance sampling을 통해 온라인 긍정적 데이터만으로 학습하며, 부정 샘플링 없이도 정책 경사 하강법을 안정화시키는 두 가지 메커니즘을 적용합니다.
Qwen-Math-7B 모델을 활용한 실험 결과, POPO는 GRPO보다 우수한 성능을 보였으며, AIME 2025에서 36.67%의 정확도를 달성했습니다.