Qwen3.6-27B 모델을 16GB VRAM 환경에서 실행하는 사용자들의 최적화 설정을 공유하는 글입니다. Qwen3.5:9B 모델보다 높은 지능을 목표로 하며, 비전 모델은 CPU로 오프로드했습니다.
Q3_K_S 양자화 방식을 사용하며, 프롬프트 평가 시간은 0.91ms/토큰, 총 실행 시간은 19172.84ms/1391 토큰으로 측정되었습니다.
HA 음성 비서 사용 목적에 맞춰 64 레이어를 GPU에 로드하고, 다양한 파라미터 조정을 통해 0.80의 초안 수용률을 달성했습니다.