MTP 벤치마크 결과, Qwen 3.6 27B 모델에서 코딩 작업은 속도가 최대 123% 빨라지지만, 창의적인 작업은 오히려 느려질 수 있다는 사실이 밝혀졌습니다.
F16 모델은 메모리 대역폭 제약으로 인해 MTP를 사용해도 속도 향상이 미미한 반면, Q4_K_M 모델은 충분한 속도를 제공하여 MTP 사용 시 상당한 속도 향상을 보였습니다.
코드 생성, 사실 확인, 분석, 창의적인 글쓰기 작업 유형에 따라 MTP의 성능이 달라지며, 특히 창의적인 작업에서는 40%의 낮은 수용률로 인해 MTP 사용을 꺼리는 것이 좋습니다.