Pulse · AI 뉴스

GSQ: Gumbel-Softmax 샘플링 기반 LLM 고정밀 저정밀 스칼라 양자화

Llama · 2026-04-21

GSQ는 LLM 배포 효율성을 높이기 위한 스칼라 양자화 방법으로, Gumbel-Softmax relaxation을 활용하여 양자화 그리드 할당과 그룹 스케일을 동시에 학습합니다.

기존 스칼라 양자화 방법의 정확도 한계를 극복하고, 벡터 양자화 방법의 복잡성을 줄여 2~3비트에서 QTIP 수준의 성능을 달성했습니다.

GSQ는 Llama-3.1 모델에서 뛰어난 성능을 보였으며, Kimi-K2.5와 같은 초대규모 MoE 모델에도 적용 가능성을 입증했습니다.

##양자화##LLM##GSQ

매일 핵심 AI 소식을 한국어로, 빠르게