Llama-server에서 MTP (Mixture of Prompt Tuning)를 사용하려면 시작 인수에 `--spec-type draft-mtp` 및 `--spec-draft-n-max` 옵션을 설정해야 합니다.
현재 Gemma와 같은 MTP를 지원하지 않는 모델은 Llama-server로 로드할 수 없는 문제가 발생하고 있습니다.
MTP를 사용하려면 다른 모델을 사용하지 않고 Llama-server를 사용해야 하는지, 아니면 다른 해결 방법이 있는지 문의했습니다.