Pulse · AI 뉴스

Deepseek-v4-Flash 양자화 모델 작동 여부 확인 중

DeepSeek · 2026-05-28

사용자가 Deepseek-v4-Flash 양자화 모델을 llama.cpp 또는 vLLM에서 실행하는 데 어려움을 겪고 있어요. 현재 시도한 모델은 품질이 낮고 일관성 없는 출력을 보여요. vLLM은 H100 GPU 에서만 DS4를 지원하는 문제도 있어요.

사용자는 llama.cpp/vLLM에서 작동하는 다른 양자화 모델을 찾고 있어요. 현재로서는 Hugging Face의 nsparks/DeepSeek-V4-Flash-FP4-FP8-GGUF 모델이 가장 좋은 결과라고 답했어요.

##DeepSeek##양자화##llama.cpp##vLLM

매일 핵심 AI 소식을 한국어로, 빠르게