Pulse · AI 뉴스

SlimQwen: 대규모 MoE 모델 사전 훈련 시 가지치기 및 지식 증류 연구

Qwen · 2026-05-09

본 연구는 대규모 MoE 모델의 사전 훈련 과정에서 가지치기 및 지식 증류 기술이 어떻게 적용되어야 하는지 체계적으로 분석합니다. 연구 결과, 사전 훈련된 MoE 모델을 가지치기하여 초기화하면 처음부터 훈련하는 것보다 더 나은 성능을 보입니다. 간단한 부분 보존 전문가 병합 전략을 통해 다양한 벤치마크에서 성능을 향상시킬 수 있습니다.

지식 증류를 언어 모델링 손실과 결합하면 특히 지식 집약적인 작업에서 더 효과적이며, 멀티 토큰 예측 증류(MTP)를 통해 성능 향상을 얻을 수 있습니다. 점진적인 가지치기 스케줄이 한 번의 가지치기보다 더 나은 최적화 경로를 제공한다는 점도 확인했습니다.

연구팀은 Qwen3-Next-80A3B 모델을 23A2B 모델로 압축하면서도 경쟁력 있는 성능을 유지했습니다.

##MoE##가지치기##지식증류##Qwen##모델압축
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기