vLLM Docker 컨테이너를 사용하여 Qwen3.6 27b 모델을 쉽게 사용할 수 있도록 설정했어요. Lorbus AutoRound INT4 양자화와 MTP 추론 기법을 적용하여 성능을 최적화했어요. 2개의 RTX 3090 GPU 환경에서 초당 118 토큰의 빠른 속도를 보여주고 있어요.