사용자가 GLM 5.1로 vibecode한 React 웹 앱에서 MTP 방식이 성능 저하를 일으키는 반면 ngram-mod는 정상 작동하는 것을 확인했어요.
qwen3.6 27B·35B 모델을 사용할 때 ngram-mod 방식이 MTP 방식보다 더 나은 성능을 보여줬으며, 이는 두 번의 테스트에서 반복 확인됐어요.
MTP 방식은 추가 VRAM 사용량이 높아 Dual GPU 환경에서 효율적이지 않으며, MoE 모델에서는 speculative decoding이 토큰 생성 속도를 저하시키는 것으로 나타났어요.