사용자가 Deepseek-v4-Flash 양자화 모델을 llama.cpp 또는 vLLM에서 실행하는 데 어려움을 겪고 있어요. 현재 시도한 모델은 품질이 낮고 일관성 없는 출력을 보여요. vLLM은 H100 GPU 에서만 DS4를 지원하는 문제도 있어요.
사용자는 llama.cpp/vLLM에서 작동하는 다른 양자화 모델을 찾고 있어요. 현재로서는 Hugging Face의 nsparks/DeepSeek-V4-Flash-FP4-FP8-GGUF 모델이 가장 좋은 결과라고 답했어요.