사용자가 Qwen3.6 27B 모델에 MTP(Multi-Turn Prompting)와 speculative decoding을 적용한 하이퍼파라미터 검색을 진행했어요. Optuna를 활용하여 최적의 파라미터를 찾았지만, 6% 정도의 제한적인 성능 향상만 얻었어요. 결과 스크립트는 GitHub gist에 공개되었으며, 최적 설정은 tokens/sec 13.24를 기록했어요.
검색 결과, llama-server를 통해 Qwen3.6-27B-UD-Q8_K_XL 모델을 사용할 때 n-gpu-layers 999, flash-attn on 등의 설정이 최적이었어요. 이 설정은 기존 방식 대비 6% 정도의 tokens/sec 향상을 보여줬어요. 자세한 설정 내용은 GitHub gist에서 확인할 수 있어요.
사용자는 MTP와 speculative decoding을 활용하여 모델 성능을 개선하려 했지만, 기대만큼 큰 효과를 얻지 못했다고 밝혔어요.