elsung 사용자가 GitHub에 Deepseek V4 Flash 모델을 Dual DGX Sparks로 가속하는 레시피를 공개했어요. 두 개의 DGX Sparks를 사용하면 FP8 연산에서 약 40tk/s의 속도를 낼 수 있어요. RTX Pro 6000과 Mac M2 Ultra 192GB와 비교 벤치마크 결과도 함께 공개됐어요.
Deepseek V4 Flash는 128K 컨텍스트를 지원하며, Dual DGX Sparks를 사용하면 350tk/s의 집계 처리량을 달성할 수 있어요. 200G/s의 빠른 상호 연결을 위해 180달러짜리 케이블이 필요해요.
RTX Pro 6000은 Q2 연산에서 46tk/s, Mac M2 Ultra 192GB는 29tk/s의 성능을 보여줬어요. Dual DGX Sparks는 FP8 연산과 동시 실행 능력으로 우위를 점했어요.