사용자가 Qwen3.6 27B 모델을 Q4_K_M 방식으로 양자화하여 16GB VRAM 환경에서도 실행 가능한 GGUF 파일을 공개했어요.
MTP 버전은 토큰 생성 속도가 40 tok/s, non-MTP 버전은 24 tok/s로 나타났으며, perplexity 차이는 미미한 수준이에요.
Hugging Face에서 다운로드 가능하며, llama.cpp 최신 버전으로 실행하면 15.1~15.4GB 용량을 차지하며, 다양한 버전의 모델 크기를 비교할 수 있어요.