Pulse · AI 뉴스

DeepSeek-V4-Flash (MXFP4) CPU 추론 속도 저하 문제

DeepSeek · 2026-07-05

사용자가 DeepSeek-V4-Flash 모델을 MXFP4 형식으로 CPU 추론 시 예상보다 낮은 속도를 경험했어요. GLM 5.2 모델보다 속도가 느려 메모리 대역폭 부족을 의심하고 있어요. MXFP4 형식의 문제인지 확인하고 Q4 양자화 버전 다운로드 방법을 문의했어요.

DeepSeek-V4-Flash 모델의 13B 파라미터 버전을 MXFP4 형식으로 양자화했을 때 3.2 t/s의 낮은 추론 속도가 나왔어요. GLM 5.2 모델보다 훨씬 느려 성능 저하를 의심하고 있어요.

사용자는 512GB 메모리, E5-2699v4 프로세서를 가진 CPU 환경에서 DeepSeek-V4-Flash 모델을 테스트 중이며, MXFP4 형식의 성능에 대한 질문을 Reddit에 올렸어요.

##DeepSeek##CPU##양자화##MXFP4##성능

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기