Hugging Face Jobs를 사용하면 단일 명령으로 vLLM 서버를 실행하여 OpenAI 호환 LLM 엔드포인트를 구축할 수 있습니다.
vLLM/vllm-openai 이미지를 활용하여 GPU를 할당하고 포트를 노출하며, 사용자는 자신의 노트북이나 다른 곳에서 API를 통해 모델을 쿼리할 수 있습니다.
Qwen/Qwen3-4B 모델을 예시로 사용하여, 더 큰 모델을 실행하기 위한 팁과 함께 서버 실행, 쿼리, 정리 방법을 안내합니다. HF Jobs는 테스트, 평가, 배치 생성을 위한 가장 빠른 방법입니다.