Reddit 사용자가 M3 Max Mac(96GB)에서 Deepseek 4 Flash를 실행하는 데 성공했어요. Antirez의 ds4 gguf 엔진을 사용하고 --ssd-streaming 옵션을 적용했어요.
iogpu.wired_limit_mb 옵션을 통해 Metal 할당량을 늘리고, 캐시 안전성을 높이는 실험도 진행했어요.
콜드 부팅 시 10초, 이후 3~5초의 TTFT를 보여주며, 36K 토큰을 사용할 때 2분 30초가 소요돼요.
Qwen 27B와 비교했을 때 속도 차이가 크지 않아, Mac에서 LLM 활용 가능성이 높아졌어요.