Pulse · AI 뉴스

CEPO: 콘트라스트 증거 정책 최적화를 이용한 RLVR 자기 증류

CEPO · 2026-05-19

연구진은 RLVR 환경에서 모델이 정확한 해결책을 생성할 때, 모든 토큰이 동일한 보상 신호를 받는 문제를 해결하기 위해 CEPO(Contrastive Evidence Policy Optimization)를 제안했어요.

CEPO는 정답과 오답을 비교하여 모델이 실제로 중요한 추론 단계를 식별하도록 훈련하며, 이 과정에서 정답을 훈련 데이터에 흘러들게 하는 정보 누출 문제를 방지해요.

2B 및 4B 규모의 모델에서 5개의 다중 모드 수학적 추론 벤치마크에서 평균 정확도가 각각 43.43% 및 60.56%로 GRPO보다 향상된 결과를 보여줬어요.

연구 코드는 GitHub에서 공개되었으며, 자기 증류 방법(OPSD, SDPO)은 훈련되지 않은 기준선 이하의 성능을 보였음을 확인했어요.

##RLVR##자기증류##CEPO##수학추론

매일 핵심 AI 소식을 한국어로, 빠르게