DeepSeek V4 Flash 모델이 llama.cpp PR을 통해 현지 추론 지원을 시작했어요. 아직 초기 단계지만, 모델 지능, 양자화 성능, 컨텍스트 윈도우 효율성이 뛰어나다는 평가를 받고 있어요. 사용자들은 현지 모델이 처음으로 frontier 모델과 견줄 만하다고 느낄 정도예요. am17an과 pwilkin에게 감사 인사를 전하며, PR 합병을 기대하고 있어요.
DeepSeek V4 Flash는 크기에 비해 뛰어난 지능을 보여주며, FP4-FP8 하이브리드 구조 덕분에 양자화에 강점을 보입니다. 또한, flash attention을 사용하지 않아 KV 캐시 크기를 줄이는 데 효과적이에요. Qwen 3.5/3.6 시리즈보다 더 나은 성능을 보여줄 것으로 예상돼요.
llama.cpp PR은 아직 초기 단계로, 속도가 느리고 GPU 및 FA 지원이 필요하며 안정성 및 성능 저하가 있을 수 있습니다. 하지만, 정확성은 이미 확보된 상태예요.
fairydreaming의 노력과 am17an, pwilkin의 참여로 DeepSeek DSA 구현이 가능해졌으며, 현지 80-120GB 모델 시장을 장악할 것으로 기대됩니다.