Pulse · AI 뉴스

강한 교사 모델이 필요 없나? LLM 사전 훈련에서의 증류 연구

arXiv cs.CL · 2026-05-23

연구진은 대형 언어 모델 사전 훈련에서 증류 과정에 있어 교사 모델의 강점과 학생 모델의 성능 간의 관계를 분석했어요. 연구 결과, 교사 모델이 강하지 않아도 적절한 손실 함수 혼합을 통해 작은 모델도 큰 모델의 성능을 향상시킬 수 있다는 것을 발견했어요. 하지만 교사 모델을 더 강하게 만들면 성능 향상 폭이 줄어들거나 오히려 역효과가 발생할 수 있어요.

증류는 기존 방식보다 일반화 성능(분포 외 및 downstream 작업)을 향상시키는 데 더 효과적이라는 점이 확인되었어요. 이 연구는 증류 사전 훈련에 항상 강력한 교사 모델이 필요하다는 일반적인 믿음에 도전해요.

연구는 다양한 아키텍처 크기와 토큰 예산으로 강한-약한, 동일 수준, 약한-강한 교사-학생 관계를 만들고 각 관계에서 증류의 효과를 연구했어요.

##LLM##사전훈련##증류##모델최적화##연구
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기