사용자가 RTX 2080 SUPER 8GB 환경에서 llama.cpp를 사용하여 Qwen3.5-35B-A3B 모델에 DFlash 추론을 적용하는 데 성공했어요.
DFlash를 통해 기존 방식 대비 약 33~34%의 생성 속도 향상을 얻었으며, 이는 약 26.8 tok/s에서 35.6~35.8 tok/s로 증가했어요.
DFlash 적용 시 draft_max 값을 6으로 설정하고, -ncmoe 값을 34로 설정하는 것이 최적의 성능을 보이는 것으로 나타났어요.