DeepSeek-V4-Flash 모델이 RTX PRO 6000 Max-Q GPU 2개에서 85.52 tok/s의 빠른 속도를 기록하며 출시되었습니다.
연구원은 MTP 블록을 복원하고 GPTQ 패스를 적용하여 모델 성능을 최적화했습니다. 이를 통해 단일 스트림에서 128K 컨텍스트에서 ~111 tok/s의 성능을 달성했습니다.
새로운 모델은 768개의 라우팅된 전문가 텐서와 FP8 블록을 사용하여 효율성을 높였으며, 2× 96 GB GPU 메모리에 완벽하게 들어맞습니다.
Max-Q 워크스테이션 카드 사용자는 CUDA P2P 관련 문제를 해결하기 위해 특정 플래그를 사용해야 합니다.