연구진은 LLM의 높은 연산량과 메모리 요구량을 줄이기 위해 토큰 수준 지식 전달을 위한 증류 전략을 제안했습니다. EGAD(Entropy-Guided Adaptive Distillation)는 교사 모델의 출력 엔트로피를 활용하여 토큰 수준으로 학습 과정을 조정합니다. 실험 결과, EGAD는 기존 방법보다 효과적인 지식 전달과 학습 효율성을 보여주었습니다.