Hugging Face Niels Rogge가 PapersWithCode에 On-Policy Distillation (OPD) 기법을 소개했어요.
OPD는 Qwen 3.6, GLM-5.1, DeepSeek-V4 등 최신 모델의 핵심 후처리 기술이에요.
OPD는 모델이 오류를 범했을 때, 오류 지점에 힌트 토큰을 삽입하여 특정 오류를 방지하는 방식이에요.
Dwarkesh가 설명한 OPD 화이트보드 강의를 PapersWithCode에 링크하여 더 많은 사람이 참고할 수 있도록 했어요.