Pulse · AI 뉴스

On-Policy Distillation: Qwen 3.6, GLM-5.1, DeepSeek-V4 핵심 기술

Hugging Face · 2026-06-04

Hugging Face Niels Rogge가 PapersWithCode에 On-Policy Distillation (OPD) 기법을 소개했어요.

OPD는 Qwen 3.6, GLM-5.1, DeepSeek-V4 등 최신 모델의 핵심 후처리 기술이에요.

OPD는 모델이 오류를 범했을 때, 오류 지점에 힌트 토큰을 삽입하여 특정 오류를 방지하는 방식이에요.

Dwarkesh가 설명한 OPD 화이트보드 강의를 PapersWithCode에 링크하여 더 많은 사람이 참고할 수 있도록 했어요.

##OPD##OnPolicyDistillatio##Qwen##GLM##DeepSeek

매일 핵심 AI 소식을 한국어로, 빠르게