Pulse · AI 뉴스

소규모 모델에서 Dense vs MoE: 활성 파라미터 매칭이 핵심

Llama · 2026-05-14

본 연구는 LLaMA 스타일 디코더 학습 환경에서 소규모 Dense와 MoE 트랜스포머 모델을 비교 분석했습니다. MoE 모델은 활성 파라미터 매칭 시 검증 손실을 개선했지만, 총 저장 용량 기준으로는 Dense 모델이 더 우수했습니다. 연구는 4개의 전문가, Top-2 라우팅, Switch-style 로드 밸런싱, 라우터 z-loss를 사용했습니다.

Dense 모델은 활성 또는 총 파라미터 예산에 맞춰 폭을 조정했고, 토크나이저, 데이터, 옵티마이저, 스케줄, 깊이, 컨텍스트 길이, 정규화 스타일, 평가 프로토콜은 고정했습니다. 세 번의 전체 데이터 비교에서 MoE 모델은 1.5788 +/- 0.0020의 검증 손실을 기록했습니다.

연구 결과, 소규모 (25M 파라미터 미만) 모델에서는 MoE가 활성 파라미터 매칭 하에 검증 손실을 개선하지만, 총 저장 용량이 동일할 때는 Dense 학습을 능가하지 못했습니다.

##MoE##LLaMA##트랜스포머##검증손실##활성파라미터
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기