Pulse · AI 뉴스

Near-Policy: 비정책 학습으로 온정책 증류 가속화

openPangu-Embedded-1B · 2026-05-07

Near-Policy Distillation (NPD)은 학생 모델의 생성과 학습을 분리하여 효율성을 높이는 비정책 증류 방법입니다.

NPD는 희소 학생 업데이트와 $Δ$-IFD 필터링을 통해 정책 편이를 안정화시키고, 기존 SFT보다 8.09% 성능 향상을 달성했습니다.

NPD는 openPangu-Embedded-1B 모델이 Qwen3-1.7B보다 높은 68.73%의 최고 점수를 기록하도록 지원했습니다.

##모델출시##증류##최적화

매일 핵심 AI 소식을 한국어로, 빠르게