On-Policy Self-Distillation (OPSD)가 최근 RLVR (Reinforcement Learning with Verifiable Rewards)의 대안으로 떠오르고 있습니다. 연구 결과, OPSD는 수학적 추론에서 압축 메커니즘으로 작동하는 경향이 강하며, 정확도 향상보다는 응답 단축에 효과적입니다. 연구진은 SFT, RLVR, OPSD를 순차적으로 적용하는 수정된 파이프라인을 제안합니다.