Pulse · AI 뉴스

llama.cpp MTP 지원으로 Qwen3.6 27B 성능 2.44배 향상

llama.cpp · 2026-05-19

llama.cpp 프로젝트가 MTP(MTP Speculative Decoding) 기능 지원을 통해 Qwen3.6 27B 모델의 추론 속도를 최대 2.44배 향상시켰습니다. Strix Halo 환경에서 Q8_0 모델이 18.1 tok/s를 기록했습니다.

MTP 기능은 MoE(Mixture of Experts) 모델에서 효과가 적으며, 최적의 N 값은 하드웨어 환경에 따라 달라집니다. RTX 3090에서는 n=2, Strix Halo에서는 n=3가 적합합니다.

전력 제한 해제 시 27-32B 모델의 성능이 최대 113% 향상되었으며 MTP 관련 정보와 raw YAML 데이터는 GitHub에서 제공됩니다.

##llama.cpp##MTP##Qwen3.6##성능향상##LLM

매일 핵심 AI 소식을 한국어로, 빠르게