ByteShape에서 Qwen 3.6 35B GGUF 모델의 NTP (일반 양자화) 및 MTP (새로운 양자화 방식) 버전을 공개했어요. RTX 4090, 5090 등 다양한 GPU 및 CPU 환경에서 성능을 테스트했어요.
일반적으로 작은 양자화 모델이 빠르다고 예상되지만, 이번 테스트에서는 가장 큰 모델이 품질과 속도 면에서 뛰어난 성능을 보여줬어요. 메모리 여유가 있다면 큰 모델을 선택하는 것이 유리할 수 있어요.
MTP 방식은 GPU에서 생성 속도를 20~40% 향상시키지만, 메모리 사용량이 늘어나므로 GPU 메모리가 부족한 환경에서는 활용하기 어려울 수 있어요. CPU 환경에서는 MTP 방식이 효과적이지 않다고 판단돼요.