AlphaQ는 Mixture-of-Experts(MoE) 모델 양자화 시 교정 데이터 없이 전문가 중요도를 추정하는 새로운 기법입니다. 전문가별 가중치 스펙트럼의 heavy-tailed 정도를 측정하여 더 잘 훈련된 전문가에 더 높은 비트 폭을 할당하는 방식으로 작동합니다. Qwen1.5-MoE 모델에서 AlphaQ는 평균 3.5비트의 낮은 비트 폭으로 거의 전체 정밀도에 가까운 정확도를 달성하며 4배 이상의 메모리 압축을 제공합니다.