Mixture-of-Experts (MoE) LLM은 강력한 성능을 보이지만 전문가 파라미터로 인해 메모리 오버헤드가 큽니다. GEMQ는 모델 전체의 전문가 중요도를 고려하는 글로벌 선형 계획법과 양자화된 전문가에 적응하는 라우터 미세 조정을 통해 이러한 한계를 극복합니다.
기존 방법보다 정확도와 메모리 간의 균형을 개선하여 극단적인 저비트 양자화가 가능합니다.
실험 결과, GEMQ는 메모리를 줄이고 추론 속도를 높이면서 정확도 저하를 최소화합니다. 소스 코드는 GitHub에서 확인할 수 있습니다.