사용자가 RTX 5090 GPU 환경에서 Deepseek V4 Flash 모델을 최적화했어요. llama.cpp 포크를 활용해 Prompt Processing 속도를 향상시켰어요. 104만 컨텍스트를 처리할 수 있으며, VRAM 여유도 확보했어요.
llama-batched-bench 명령어를 통해 테스트 결과, TG T/S는 22.7에서 21.3으로, PP T/S는 1105에서 927로 개선됐어요. Prompt Processing 테스트 범위를 8192 토큰에서 65536 토큰으로 확장하고 MoE 설정을 적용했어요.
최적화된 모델은 llama-server 명령어로 실행 가능하며, 145 토큰 응답 시 21.14 t/s의 속도를 보여줘 llocallama 커뮤니티 사용자들에게 유용할 것으로 기대돼요.