사용자가 DeepSeek-V4-Flash 모델을 MXFP4 형식으로 CPU 추론 시 예상보다 낮은 속도를 경험했어요. GLM 5.2 모델보다 속도가 느려 메모리 대역폭 부족을 의심하고 있어요. MXFP4 형식의 문제인지 확인하고 Q4 양자화 버전 다운로드 방법을 문의했어요.
DeepSeek-V4-Flash 모델의 13B 파라미터 버전을 MXFP4 형식으로 양자화했을 때 3.2 t/s의 낮은 추론 속도가 나왔어요. GLM 5.2 모델보다 훨씬 느려 성능 저하를 의심하고 있어요.
사용자는 512GB 메모리, E5-2699v4 프로세서를 가진 CPU 환경에서 DeepSeek-V4-Flash 모델을 테스트 중이며, MXFP4 형식의 성능에 대한 질문을 Reddit에 올렸어요.