llama.cpp에 MTP (Mixture of Tensor Parallelism) 지원이 추가되어 AI Max 395에서 토큰 처리 속도가 최대 80 토큰/초까지 향상되었습니다. MTP를 적용했을 때 PP (perplexity)는 변화가 없었으며, GGUF 파일 크기는 약 36GB로 거의 동일했습니다. Qwen3.6-35BA3B-MTP-GGUF 모델을 사용하여 실험했으며, qwen 3.5 122B 모델에서도 테스트할 예정입니다.