Pulse · AI 뉴스

Deepseek V4 Flash, RTX 5090 MoE 환경 최적화 결과 공유

Deepseek · 2026-07-04

사용자가 RTX 5090 GPU 환경에서 Deepseek V4 Flash 모델을 최적화했어요. llama.cpp 포크를 활용해 Prompt Processing 속도를 향상시켰어요. 104만 컨텍스트를 처리할 수 있으며, VRAM 여유도 확보했어요.

llama-batched-bench 명령어를 통해 테스트 결과, TG T/S는 22.7에서 21.3으로, PP T/S는 1105에서 927로 개선됐어요. Prompt Processing 테스트 범위를 8192 토큰에서 65536 토큰으로 확장하고 MoE 설정을 적용했어요.

최적화된 모델은 llama-server 명령어로 실행 가능하며, 145 토큰 응답 시 21.14 t/s의 속도를 보여줘 llocallama 커뮤니티 사용자들에게 유용할 것으로 기대돼요.

##Deepseek##RTX5090##MoE##llama.cpp##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기