Asus ROG Zephyrus G14 노트북에서 Qwen3.6-35B-A3B 모델을 MTP(Mixture of Experts with Paged Attention)로 실행했을 때 성능을 실험한 결과, MTP 사용은 오히려 성능 저하를 일으키는 것으로 나타났습니다.
MTP를 사용하면 프롬프트 처리 속도가 느려져 TG(Token Generation) 속도 향상 효과를 상쇄하며, 특히 PP(Prompt Processing) 속도가 크게 느려집니다.
드래프트 KV 캐시 양자화에 q4_0 방식을 사용하면 VRAM을 약간 절약할 수 있으며, 성능에도 큰 영향을 미치지 않는다는 점을 발견했습니다. MTP는 현재 이 환경에서 가치가 없다고 판단됩니다.