Pulse · AI 뉴스

MoE 전문가 가지치기 위한 통일된 공식 및 선택 원리: 일회성 전문가 가지치기

Mixture-of-Experts · 2026-06-14

연구진은 MoE 언어 모델의 일회성 전문가 가지치기를 위한 통일된 공식을 제시했어요. 이 공식은 라우팅 빈도, 게이트 가중치, 활성화 강도 세 가지 요소를 중심으로 구성돼요.

연구 결과, 작업에 구애받지 않는 가지치기는 라우팅 빈도와 게이트 가중치를 고려하지 않고 활성화 기반 기준으로 선택하는 것이 효과적이며, 작업 특정 가지치기는 라우팅 빈도와 게이트 가중치를 활용할 수 있어요.

Mean Activation Norm (MAN)과 Mean Squared Activation Norm (MSAN)이라는 새로운 작업에 구애받지 않는 기준을 제시하고, 다양한 모델과 벤치마크에서 기존 기준보다 성능을 향상시켰어요.

##MoE##가지치기##언어모델##활성화##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기