Pulse · AI 뉴스

GEMQ: MoE LLM의 글로벌 전문가 레벨 혼합 정밀 양자화

GEMQ · 2026-05-22

Mixture-of-Experts (MoE) LLM은 강력한 성능을 보이지만 전문가 파라미터로 인해 메모리 오버헤드가 큽니다. GEMQ는 모델 전체의 전문가 중요도를 고려하는 글로벌 선형 계획법과 양자화된 전문가에 적응하는 라우터 미세 조정을 통해 이러한 한계를 극복합니다.

기존 방법보다 정확도와 메모리 간의 균형을 개선하여 극단적인 저비트 양자화가 가능합니다.

실험 결과, GEMQ는 메모리를 줄이고 추론 속도를 높이면서 정확도 저하를 최소화합니다. 소스 코드는 GitHub에서 확인할 수 있습니다.

##MoE##양자화##LLM##GEMQ

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기