연구진은 기존 On-Policy Self-Distillation(OPSD) 방식이 장문의 추론 모델에선 효과가 미미하고 오히려 성능을 저해한다고 밝혔어요.
OPSD의 문제 원인은 참조 솔루션에 의존하는 감독 신호로 인해 모델이 정답을 암기하는 경향이 있기 때문이며, 질문에 따른 추론 능력은 소외된다는 점이에요.
연구진은 참조 신호를 분리하고 PMI(Pointwise Mutual Information)를 활용해 자체 증류 방식을 개선하여, 기존 모델과 OPSD 대비 성능 향상과 함께 자연스러운 추론 능력 유지에 성공했어요.