연구진은 온-정책 증류(OPD)에서 토큰 단위의 교사 신호 중 학습 가능한 신호와 불가능한 신호를 구분하는 방법을 연구했어요. 토큰 가르칠 가능성(teachability)이라는 개념을 도입하여, 기존의 KL 불일치 지표보다 개선된 성능을 보였어요. Teachability-Aware OPD(TA-OPD)라는 새로운 방법을 제안하여, 전체 토큰에 대한 OPD보다 더 효율적으로 학습을 진행할 수 있음을 입증했어요.
TA-OPD는 교사 신호의 학습 가능성을 고려하여 토큰 위치를 선택하는 방식으로, 기존의 엔트로피나 불일치 기반 방법보다 우수한 성능을 보여줘요. Qwen2.5 및 Qwen 3의 교사-학생 설정에서 TA-OPD는 전체 토큰 OPD를 능가하며, 5%의 토큰만 유지하면서도 성능 향상을 달성했어요.
본 연구는 선택적 OPD를 단순히 두드러진 토큰을 선택하는 것이 아니라, 학습 가능한 교사 신호를 선택하는 것으로 재해석하며, 토큰 단위 학습의 새로운 방향을 제시해요.