Qwen3.6-27B 모델을 2개의 RTX 3090 GPU 환경에서 llama.cpp (Q6_K, Q8_0)와 vLLM (INT4, INT8)을 비교 분석한 결과, vLLM INT8이 가장 높은 MTP 수용률과 빠른 토큰 생성 속도를 보였어요.
vLLM INT8은 51.6 토큰/초의 속도와 77%의 MTP 수용률을 기록했지만, INT4는 53.7 토큰/초의 속도에도 불구하고 MTP 수용률이 75%, 47%, 27%로 급격히 감소하는 현상을 확인했어요.
본문에서는 각 백엔드 설정, 원격 접속 방법, 사용된 플래그, 성능 결과, 그리고 문제 해결 과정 등을 상세히 설명하며, 특히 MTP draft-head 수용률 데이터를 공유하여 관련 연구 및 활용에 기여할 것으로 기대돼요.