연구진은 기존 자기 증류 방식의 정보 유출 및 탐색 능력 저하 문제를 해결하기 위해 DemoPSD 프레임워크를 제안했어요.
DemoPSD는 교사의 모든 지침을 따르는 대신, 교사와 학생 분포의 역 KL 바리센타 타겟을 학습하여 교사로부터 학습하는 것과 학생의 추론 능력을 유지하는 균형을 맞추는 방식이에요.
SciKnowEval 실험 결과, DemoPSD는 기존 GRPO 및 SDPO 방식보다 성능이 뛰어나고, 더 높은 학습 엔트로피를 유지하며 GPQA 벤치마크에서 안정적인 성능을 보였어요.