연구진은 강화 학습과 검증 가능한 보상(RLVR)의 한계를 극복하기 위해 교정 지향 정책 최적화(CIPO)를 제안했어요. CIPO는 모델의 실패한 경로를 활용하여 교정 지향적인 감독 신호를 생성하고, 기존 RLVR 목표와 함께 최적화하여 학습 효율성을 높여요.
수학적 추론과 코드 생성 벤치마크 11개에서 실험한 결과, CIPO는 기존 방식보다 성능이 뛰어나고, 모델이 스스로 오류를 수정하는 능력을 향상시키는 것을 확인했어요.
CIPO는 pass@K 점수를 향상시켜 모델의 근본적인 추론 능력을 개선하며, 기존 정답 분포를 재분배하는 것 이상의 효과를 보여줬어요.