Havanoammo가 Qwen3.6-27B 모델에 MTP(Multi-Token Prediction)를 적용한 GGUF 파일을 공개했어요.
MTP는 4개의 토큰을 한 번에 예측하여 추론 성능을 향상시키는 기술로, llama.cpp의 PR #22673을 통해 구현됐어요.
MTP 적용 시 UD XL GGUF 모델의 토큰 처리량이 약 2.5배 증가했으며, 대부분의 예측 토큰이 채택되는 높은 수용률을 보여요.
Q8 MTP 레이어는 VRAM 오버헤드를 거의 추가하지 않으면서도 효율적인 성능 향상을 제공합니다.