RTX 5090에 Qwen3.6 27B NVFP4 모델을 테스트한 결과, 20만 토큰 컨텍스트를 vLLM으로 처리하는 데 성공했습니다.
싱글 RTX 5090(32GB VRAM) 환경에서 모델, vLLM, Torch, 드라이버, 양자화, 어텐션 백엔드, KV 캐시, MTP 등 다양한 설정을 적용했습니다.
llama-benchy 테스트 결과, 20만 토큰 컨텍스트에서 평균 생성 토큰 속도는 63~75 tok/s였으며, 프레픽스 캐싱을 통해 TTFT를 크게 단축할 수 있었습니다.
본 테스트는 성능 및 안정성 검증을 위한 것이며, 정확도 벤치마크는 포함되지 않았습니다. 추가적인 설정 비교 및 정보 공유를 환영합니다.