대규모 언어 모델(LLM)을 압축하는 지식 증류(KD) 방법의 설계 요소를 분석하고, 기존 방법 간의 연관성을 규명했어요. 하이브리드 정책 증류(HPD)를 제안하여 순방향 및 역방향 KL의 장점을 결합하고, 오프라인 데이터와 경량 온라인 샘플링을 활용했어요. 수학 추론, 대화, 코드 생성 등 다양한 작업에서 모델 패밀리 및 규모에 따라 최적화 안정성, 효율성, 성능이 향상되었음을 입증했어요.