Reddit 사용자가 DeepSeek V4 Flash 모델의 1M 토큰 컨텍스트 로컬 실행을 위한 llamacpp 패치를 공개했어요. 기존 방식은 과도한 VRAM을 요구했지만, 패치를 통해 RTX 5090에서 3.75GB VRAM으로 실행 가능해졌어요. 패치는 DSA lightning indexer 지원 및 CUDA 커널 패치를 포함하며, 성능 향상과 함께 정확성 검증도 완료됐어요.
1M 컨텍스트에서 Prefill 속도는 159 t/s, Decode 속도는 13.7 t/s를 기록하며, 512K 컨텍스트에서도 각각 256 t/s, 13.7 t/s의 성능을 보여줘요. VRAM 사용량은 256K에서 29GB, 512K에서 28GB, 1M에서 31GB로 감소했어요.
패치 소스 코드 및 빌드 방법은 GitHub에서 확인할 수 있으며, 단일 GPU(RTX 5090)에서 테스트되었고, 96GB DDR5 메모리와 9950X3D 프로세서를 사용했어요.