사용자 havenoammo가 Qwen3.6-35B-A3B 모델에 MTP (Mixture of Teacher-Pupil) 레이어를 적용한 GGUF 모델을 Hugging Face에 공개했어요.
Q4 에서는 6%, Q8 에서는 2.5% 정도의 속도 향상만 있었으며, 이는 27B 모델에서 나타난 2~2.5배의 속도 향상과 비교하면 작은 수치예요.
AdamDhahabi 님은 5070 Ti 2개와 3090 조합에서 Q8 모델이 165 t/s로 속도가 향상되었다고 보고했으며, 이는 시스템 환경에 따라 결과가 달라질 수 있음을 시사해요.
5090 FE와 3090 조합에서 MTP 적용 시 prompt eval time이 감소했지만, draft acceptance rate는 오히려 감소하는 경향을 보였어요.