aminalaee가 vLLM 추론 서버 문제를 진단하고 모니터링하는 CLI 툴 'vllm-doctor'를 공개했어요. 이 툴은 큐 압력, 높은 TTFT/TPOT, KV 캐시 압력 등 다양한 문제를 감지하고, 원인과 해결책을 제시합니다. GitHub에서 오픈 소스로 공개되었으며 피드백을 환영합니다.
vllm-doctor는 vLLM 서버의 /metrics 엔드포인트 또는 Prometheus 인스턴스에서 지표를 읽어 규칙 기반 검사를 수행합니다. 각 문제는 트리거 지표, 신뢰도, 가능한 원인, 구체적인 권장 사항과 함께 제공됩니다.
툴은 사람이 읽을 수 있는 텍스트 또는 자동화를 위한 JSON 형식으로 출력되며, --watch 모드를 통해 지속적으로 새로 고침됩니다.