GSQ는 LLM 배포 효율성을 높이기 위한 스칼라 양자화 방법으로, Gumbel-Softmax relaxation을 활용하여 양자화 그리드 할당과 그룹 스케일을 동시에 학습합니다.
기존 스칼라 양자화 방법의 정확도 한계를 극복하고, 벡터 양자화 방법의 복잡성을 줄여 2~3비트에서 QTIP 수준의 성능을 달성했습니다.
GSQ는 Llama-3.1 모델에서 뛰어난 성능을 보였으며, Kimi-K2.5와 같은 초대규모 MoE 모델에도 적용 가능성을 입증했습니다.