Pulse · AI 뉴스

Qwen3.6-35B-A3B 모델에 MTP 적용 결과 공유: 성능 향상 미미

Qwen · 2026-05-07

사용자 havenoammo가 Qwen3.6-35B-A3B 모델에 MTP (Mixture of Teacher-Pupil) 레이어를 적용한 GGUF 모델을 Hugging Face에 공개했어요.

Q4 에서는 6%, Q8 에서는 2.5% 정도의 속도 향상만 있었으며, 이는 27B 모델에서 나타난 2~2.5배의 속도 향상과 비교하면 작은 수치예요.

AdamDhahabi 님은 5070 Ti 2개와 3090 조합에서 Q8 모델이 165 t/s로 속도가 향상되었다고 보고했으며, 이는 시스템 환경에 따라 결과가 달라질 수 있음을 시사해요.

5090 FE와 3090 조합에서 MTP 적용 시 prompt eval time이 감소했지만, draft acceptance rate는 오히려 감소하는 경향을 보였어요.

##Qwen##MTP##llama.cpp##모델출시##성능

매일 핵심 AI 소식을 한국어로, 빠르게