Pulse · AI 뉴스

llama.cpp: MTP 지원 추가

llama.cpp · 2026-05-16

llama.cpp 프로젝트에서 MTP(Multi-Threaded Prompt) 지원을 추가했어요. 이를 통해 Qwen3.6 모델의 추론 속도를 향상시킬 수 있습니다. ggml-org/llama.cpp 저장소의 Pull Request #22673에서 관련 내용을 확인할 수 있어요.

Qwen3.6-27B-MTP-GGUF 및 Qwen3.6-35B-A3B-MTP-GGUF 모델이 Hugging Face에 공개되었어요. MTP 지원으로 더 빠른 추론이 가능해졌습니다.

MTP 지원은 다중 스레드를 활용하여 프롬프트를 처리하는 방식으로, 특히 대규모 모델에서 성능 향상에 기여합니다.

##llama##MTP##Qwen##ggml

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기