본 연구는 LLaMA 스타일 디코더 학습 환경에서 소규모 Dense와 MoE 트랜스포머 모델을 비교 분석했습니다. MoE 모델은 활성 파라미터 매칭 시 검증 손실을 개선했지만, 총 저장 용량 기준으로는 Dense 모델이 더 우수했습니다. 연구는 4개의 전문가, Top-2 라우팅, Switch-style 로드 밸런싱, 라우터 z-loss를 사용했습니다.
Dense 모델은 활성 또는 총 파라미터 예산에 맞춰 폭을 조정했고, 토크나이저, 데이터, 옵티마이저, 스케줄, 깊이, 컨텍스트 길이, 정규화 스타일, 평가 프로토콜은 고정했습니다. 세 번의 전체 데이터 비교에서 MoE 모델은 1.5788 +/- 0.0020의 검증 손실을 기록했습니다.
연구 결과, 소규모 (25M 파라미터 미만) 모델에서는 MoE가 활성 파라미터 매칭 하에 검증 손실을 개선하지만, 총 저장 용량이 동일할 때는 Dense 학습을 능가하지 못했습니다.