Qwen 3.6 27b 모델을 vLLM 환경에서 TP4 방식으로 구성했는데, 컨텍스트 크기가 커질수록 성능이 저하되는 문제가 발생했어요.
컨텍스트 크기가 작을 때는 MTP 설정 값 3으로 48~50 TPS를 보이지만, 70~80k를 넘어서면 15~20 TPS로 급감하는 현상이 나타나요.
MTP를 사용하지 않으면 초기 30 TPS에서 시작하여 큰 컨텍스트에서도 26~27 TPS를 유지하는데, MTP 사용 시 성능 저하가 두드러져서 현재는 비활성화 상태예요.