Pulse · AI 뉴스

부정 샘플링 없이도 LLM 강화 학습 가능한 POPO 공개: 긍정적 데이터만으로 성능 향상

Qwen · 2026-05-08

연구진은 LLM의 추론 능력을 강화하는 RLVR 분야에서 부정 샘플링의 한계를 지적하고, 긍정적 데이터만 활용하는 POPO(Positive-Only Policy Optimization) 프레임워크를 제안했습니다.

POPO는 bounded importance sampling을 통해 온라인 긍정적 데이터만으로 학습하며, 부정 샘플링 없이도 정책 경사 하강법을 안정화시키는 두 가지 메커니즘을 적용합니다.

Qwen-Math-7B 모델을 활용한 실험 결과, POPO는 GRPO보다 우수한 성능을 보였으며, AIME 2025에서 36.67%의 정확도를 달성했습니다.

##LLM##강화학습##RLVR##POPO##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게