Pulse · AI 뉴스

RTX 5090에서 Qwen3.5-27B 로컬 LLM 설정, 초당 77개 토큰 처리 속도 달성

Qwen · 2026-04-21

사용자가 RTX 5090에서 Qwen3.5 27B 모델을 로컬 환경에서 실행하여 초당 77개 토큰(tps)의 높은 처리 속도를 달성했어요.

218k의 컨텍스트 윈도우를 지원하며, vLLM 0.19를 사용하여 최적화된 성능을 보여주고 있어요. 두 개의 동시 세션도 가능하지만, 세션당 속도는 감소해요.

KV 크기 계산 오류를 수정하는 패치 적용이 중요하며, osoleve/Qwen3.5-27B-Text-NVFP4-MTP 모델을 사용했어요.

##모델출시##로컬LLM##RTX5090

매일 핵심 AI 소식을 한국어로, 빠르게