사용자가 RTX 5090에서 Qwen3.5 27B 모델을 로컬 환경에서 실행하여 초당 77개 토큰(tps)의 높은 처리 속도를 달성했어요. 218k의 컨텍스트 윈도우를 지원하며, vLLM 0.19를 사용하여 최적화된 성능을 보여주고 있어요. 두 개의 동시 세션도 가능하지만, 세션당 속도는 감소해요. KV 크기 계산 오류를 수정하는 패치 적용이 중요하며, osoleve/Qwen3.5-27B-Text-NVFP4-MTP 모델을 사용했어요.