대규모 언어 모델(LLM)은 다양한 AI 애플리케이션을 지원하지만, 지도 학습(SFT), 양자화, 가지치기 등으로 인해 성능 저하가 발생할 수 있습니다.
연구진은 Self-Distillation Fine-Tuning (SDFT) 기반 성능 회복 프레임워크를 도입하여 모델의 기능을 효과적으로 복원했습니다.
Centered Kernel Alignment (CKA) 분석 결과, Self-Distillation은 학생 모델의 고차원 다양체를 최적 구조와 일치시키는 역할을 합니다.