MTP를 llama.cpp에서 사용할 때 `--spec-draft-type-k q4_0 --spec-draft-type-v q4_0` 옵션을 사용하면 컨텍스트 크기가 줄어들 수 있어요. 기본 fp16 스펙 초안을 사용했을 때보다 컨텍스트 크기가 감소하는 현상이 확인됐어요. am17an이 llama.cpp 토론에서 이 현상을 확인했고, 관련 내용이 GitHub에서 공유됐어요.