Pulse · AI 뉴스

Qwen3.6 27B Q4_K_M Pure Quant: 16GB VRAM에서도 구동 가능

Qwen · 2026-05-23

사용자가 Qwen3.6 27B 모델을 Q4_K_M 방식으로 양자화하여 16GB VRAM 환경에서도 실행 가능한 GGUF 파일을 공개했어요.

MTP 버전은 토큰 생성 속도가 40 tok/s, non-MTP 버전은 24 tok/s로 나타났으며, perplexity 차이는 미미한 수준이에요.

Hugging Face에서 다운로드 가능하며, llama.cpp 최신 버전으로 실행하면 15.1~15.4GB 용량을 차지하며, 다양한 버전의 모델 크기를 비교할 수 있어요.

##Qwen##Qwen3.6##GGUF##llama.cpp##양자화

매일 핵심 AI 소식을 한국어로, 빠르게