연구진은 번역 성능을 위해 불필요한 전문가를 제거하여 LLM을 압축하는 방법을 제시했어요. 기존 LLM은 번역 외 다양한 작업에 사용되므로 과도하게 매개변수를 가지고 있어 메모리와 연산량이 과도하게 소모돼요. MoE 구조 덕분에 재학습 없이도 전문가의 절반을 제거하며 번역 품질 저하를 최소화할 수 있어요.
연구 결과, 75%의 전문가를 제거하고도 초기 성능을 회복했으며, 일부 환경에서는 90%까지 제거하며 적절한 번역 품질을 유지했어요. MoE 블록의 90% 이상을 차지하는 매개변수를 크게 줄일 수 있다는 점이 중요해요.
이 방법은 LLM의 번역 요구 사항이 전체 모델의 일부에 불과하다는 것을 보여주며, LLM 압축에 기여할 수 있어요.