연구진이 LLM 압축 및 가속을 위한 효율적이고 정확한 3값 양자화 기법인 CAT-Q를 발표했어요. 기존 방식과 달리 데이터 의존적인 양자화 훈련 없이도 성능 저하를 완화하며 다양한 구조와 크기의 LLM에 적용 가능해요.
CAT-Q는 512개의 교정 샘플만으로 1.7B~8B 파라미터 LLM을 3값 모델로 양자화하며, 100B 토큰으로 학습된 BitNet 대비 10만 배 더 적은 훈련 토큰으로 우수한 성능을 보여요.
연구진은 14B~235B 파라미터의 대규모 LLM도 8~60시간 내에 8개의 A100 GPU로 양자화할 수 있음을 최초로 입증했어요.