Pulse · AI 뉴스

2080 Ti 4개로 DeepSeek-V4 로컬 실행 성공… 255 토큰/초 달성

DeepSeek · 2026-05-20

Reddit 사용자가 2080 Ti 4개로 DeepSeek-V4-Flash (284B 파라미터) 모델을 로컬에서 실행하는 시스템을 구축했어요. 총 예산은 2,500달러 미만이었어요.

커스텀 CUDA 커널, W8A8 양자화, 계산-통신 중첩 등의 기술을 적용해 255 prefill 토큰/초의 성능을 달성했어요.

하드웨어-소프트웨어 공동 최적화로 이루어진 이 시스템의 구현, 배포 스크립트, 기술 보고서는 GitHub에서 공개돼 있으며, 관련 피드백을 기다리고 있어요.

##DeepSeek##RTX2080Ti##MoE##CUDA##양자화

매일 핵심 AI 소식을 한국어로, 빠르게