llama.cpp 프로젝트가 MTP(MTP Speculative Decoding) 기능 지원을 통해 Qwen3.6 27B 모델의 추론 속도를 최대 2.44배 향상시켰습니다. Strix Halo 환경에서 Q8_0 모델이 18.1 tok/s를 기록했습니다.
MTP 기능은 MoE(Mixture of Experts) 모델에서 효과가 적으며, 최적의 N 값은 하드웨어 환경에 따라 달라집니다. RTX 3090에서는 n=2, Strix Halo에서는 n=3가 적합합니다.
전력 제한 해제 시 27-32B 모델의 성능이 최대 113% 향상되었으며 MTP 관련 정보와 raw YAML 데이터는 GitHub에서 제공됩니다.