llama.cpp 프로젝트에서 MTP(Multi-Threaded Prompt) 지원을 추가했어요. 이를 통해 Qwen3.6 모델의 추론 속도를 향상시킬 수 있습니다. ggml-org/llama.cpp 저장소의 Pull Request #22673에서 관련 내용을 확인할 수 있어요.
Qwen3.6-27B-MTP-GGUF 및 Qwen3.6-35B-A3B-MTP-GGUF 모델이 Hugging Face에 공개되었어요. MTP 지원으로 더 빠른 추론이 가능해졌습니다.
MTP 지원은 다중 스레드를 활용하여 프롬프트를 처리하는 방식으로, 특히 대규모 모델에서 성능 향상에 기여합니다.