Pulse · AI 뉴스

RTX 2080 SUPER 8GB에서 Qwen3.5-35B-A3B에 DFlash 추론 적용 성공

Qwen · 2026-05-01

사용자가 RTX 2080 SUPER 8GB 환경에서 llama.cpp를 사용하여 Qwen3.5-35B-A3B 모델에 DFlash 추론을 적용하는 데 성공했어요.

DFlash를 통해 기존 방식 대비 약 33~34%의 생성 속도 향상을 얻었으며, 이는 약 26.8 tok/s에서 35.6~35.8 tok/s로 증가했어요.

DFlash 적용 시 draft_max 값을 6으로 설정하고, -ncmoe 값을 34로 설정하는 것이 최적의 성능을 보이는 것으로 나타났어요.

##DFlash##Qwen##llama.cpp##추론##최적화

매일 핵심 AI 소식을 한국어로, 빠르게