사용자는 llama.cpp b9200 업데이트 후 Qwen 3.6 27B mtp 모델을 Hermes 에이전트 환경에서 테스트하며, 권장 설정이 오히려 성능을 저해한다는 사실을 발견했어요.
최적화된 설정 (draft lookahead 3, parallel slots 1)과 b9200 업데이트를 통해 프롬프트 처리 속도는 991 t/s 이상으로 향상되었고, 토큰 생성 속도는 짧은 작업 시 최대 27.44 t/s, 복잡한 추론 시 13.69 t/s로 개선되었어요.
draft 수락률은 70% 이상으로 유지되었으며, 이는 짧은 lookahead가 엄격한 서식에 더 적합하다는 것을 보여줘요. RTX 3090에서 27B 모델을 효율적으로 활용할 수 있음을 입증했어요.