Qwen3.6 35B-A3B MTP 모델이 RTX 5090M(24GB)에서 249 t/s의 빠른 속도를 기록하며, 동일 환경에서 27B 변종 대비 3.4배 빠른 성능을 보여줬어요.
MoE 구조 덕분에 35B 모델은 27B 모델보다 토큰당 연산량이 줄어들었고, MTP 덕분에 토큰 생성 속도도 향상돼 높은 처리량을 달성했어요.
262K 컨텍스트에서도 속도 저하가 거의 없었으며, Q4_K_XL 양자화 방식을 사용해 24GB 메모리 환경에서도 효율적으로 작동하는 것으로 확인됐어요.