cyankiwi AWQ는 기존 양자화 방식의 한계를 극복하기 위해 스케일과 양자화 범위를 동시에 최적화하는 새로운 업데이트를 공개했어요.
Llama-3 모델을 대상으로 다양한 4비트 양자화 방법과 비교 테스트한 결과, cyankiwi AWQ가 가장 낮은 KL Divergence 값을 기록하며 우수한 성능을 입증했어요.
특히 Llama-3.2-3B-Instruct, Llama-3.1-8B-Instruct, Llama-3.3-70B-Instruct 모델에서 모두 다른 방법보다 더 낮은 KL Divergence 값을 나타냈어요.