최근 LLM 연구에서 양자화가 모델 압축의 주요 해결책으로 떠올랐지만, 2~6비트 양자화가 LLM의 성능과 정확도에 미치는 영향은 여전히 연구 중입니다. MMLU-Pro, CRUXEval, MuSR 등의 작업에서 8비트 양자화(Q8_0)가 더 나은 성능을 보이지만, 그 효과는 점차 줄어듭니다. 2비트 양자화(Q2_K)는 허용 가능한 정확도를 유지하지만, 일부 모델은 성능 저하를 겪으며, 모델 크기에 따라 양자화에 대한 저항성이 달라집니다.