Pulse · AI 뉴스

CEPO: 콘트라스트 증거 정책 최적화를 이용한 RLVR 자기 증류

CEPO · 2026-05-19

연구진은 강화 학습 환경에서 모델이 정확한 해결책을 생성할 때, 모든 토큰이 동일한 보상 신호를 받는 문제를 해결하기 위해 CEPO(Contrastive Evidence Policy Optimization)를 제안했어요.

CEPO는 정답과 오답을 비교하여 모델이 실제로 중요한 추론 단계를 식별하도록 훈련하여, 정답을 기반으로 한 기존 방법의 정보 누수 문제를 해결해요.

2B 및 4B 규모의 모델에서 5개의 다중 모드 수학적 추론 벤치마크에서 평균 정확도가 각각 43.43% 및 60.56%로 GRPO보다 향상된 성능을 보여줬어요.

연구 코드는 GitHub에서 공개되었으며, 기존 자기 증류 방법보다 안전하고 효과적인 훈련 방식으로 평가받고 있어요.

##RLVR##자기증류##CEPO##강화학습

매일 핵심 AI 소식을 한국어로, 빠르게