Pulse · AI 뉴스

Mixture-of-Experts 모델에서 전문가 중요도 평가: 관찰에서 개입으로의 인과 감사

DeepSeek · 2026-06-09

연구진은 Mixture-of-Experts (MoE) 모델의 전문가 가지치기 시 활용률과 같은 관찰 통계가 전문가의 실제 중요도를 예측하지 못한다는 것을 확인했어요.

OLMoE, Qwen1.5-MoE, DeepSeek-V2-Lite 모델에서 토큰 수준의 인과적 감사 결과, 어떤 관찰 지표도 통계적 유의성을 보이지 않았으며, 효과 크기는 Cohen’s d = 0.17 미만이었어요.

기존 가지치기 방법은 전문가의 중요도를 파악하는 것이 아니라, 초기 레이어의 과도한 중복성 때문에 대부분의 선택 기준이 상호 교환 가능하기 때문에 성공하는 것으로 나타났어요.

##MixtureOfExperts##MoE##인과관계##가지치기##OLMoE

매일 핵심 AI 소식을 한국어로, 빠르게