연구진은 온-정책 증류(OPD)가 모델 파라미터에 미치는 영향을 분석했어요. 분석 결과, OPD 업데이트는 작고 좌표 희소하며, 주로 피드포워드 네트워크(FFN)에 집중되는 경향이 있어요.
희소 구조를 활용해 일부 서브 네트워크만 학습해도 원래 OPD 성능을 거의 그대로 회복할 수 있지만, SGD 옵티마이저가 AdamW보다 성능이 떨어지는 것으로 나타났어요.
업데이트는 수치적으로는 완전 랭크이지만 스펙트럼이 집중되어 있으며, 원본 가중치가 0에 가까운 좌표에 불균형적으로 분포하며, 이는 OPD가 온-정책 사후 훈련의 중요한 기하학적 특징을 유지한다는 것을 시사해요.