Near-Policy Distillation (NPD)은 학생 모델의 생성과 학습을 분리하여 효율성을 높이는 비정책 증류 방법입니다. NPD는 희소 학생 업데이트와 $Δ$-IFD 필터링을 통해 정책 편이를 안정화시키고, 기존 SFT보다 8.09% 성능 향상을 달성했습니다. NPD는 openPangu-Embedded-1B 모델이 Qwen3-1.7B보다 높은 68.73%의 최고 점수를 기록하도록 지원했습니다.