사용자가 Qwen3.6-27B 모델에 MTP(Multiple Tensor Parallel)를 적용하여 코딩 작업에서 최대 2배의 속도 향상을 확인했습니다. 특히 텐서 병렬 처리와 MTP를 결합했을 때 성능이 극대화되었습니다.
MTP 적용 시 코드 생성, C++ 코드 생성, 개념 설명, 요약, 질의응답, 번역, 창의적인 글쓰기, 단계별 수학 문제 풀이 등 다양한 작업에서 토큰 생성 속도가 향상되었습니다.
실제 18,000 토큰 코딩 프롬프트를 테스트한 결과, MTP와 텐서 병렬 처리를 함께 사용하면 상당한 속도 향상을 얻을 수 있었으며, 토큰당 2.18~4.40ms로 단축되었습니다.
현재는 프리필 속도 저하 문제가 있으며, 관련 작업이 진행 중입니다. 이 결과는 CachyOS (Arch Linux) 환경에서 ROCm 7.2를 사용하여 확인되었습니다.