Reddit 사용자가 2080 Ti 4개로 DeepSeek-V4-Flash (284B 파라미터) 모델을 로컬에서 실행하는 시스템을 구축했어요. 총 예산은 2,500달러 미만이었어요.
커스텀 CUDA 커널, W8A8 양자화, 계산-통신 중첩 등의 기술을 적용해 255 prefill 토큰/초의 성능을 달성했어요.
하드웨어-소프트웨어 공동 최적화로 이루어진 이 시스템의 구현, 배포 스크립트, 기술 보고서는 GitHub에서 공개돼 있으며, 관련 피드백을 기다리고 있어요.