비영리 단체에서 운영하는 AI 서버에서 vLLM을 도입하여 2x RTX 3090 환경의 다중 사용자 성능을 개선했어요. Qwen3.6 모델을 활용하여 벤치마크 테스트 결과도 공개되었답니다.
Docker Compose 파일을 통해 vLLM 서버를 구성했으며, GPU 메모리 활용률을 85%로 설정하고 다양한 설정을 적용했어요. 텐서 병렬 처리 및 자동 도구 선택 기능도 활성화했답니다.
벤치마크 결과, 모델에 따라 초당 토큰 수, 응답 시간 등 성능 지표가 확인되었으며, 사용자는 추가적인 개선 사항에 대한 의견을 공유하고 있어요.