연구진은 강화 학습의 효율적인 대안인 온-정책 증류의 한계를 극복하기 위해 새로운 자기 증류 방법인 PBSD(Preference-Based Self-Distillation)를 제안했습니다. PBSD는 기존 KL 매칭 방식 대신 보상 정규화를 통해 목표 정책을 개선하고, 교사 모델과의 선호도 차이를 최적화합니다. 수학적 추론 및 도구 사용 벤치마크에서 PBSD는 기존 자기 증류 방법보다 뛰어난 성능을 보이며, 안정적인 학습을 유지했습니다.