Qwen3.6 27B 모델을 9800X3D / 64GB / 5090 환경에서 llama.cpp로 튜닝한 결과, 평균 토큰 처리량이 140.7 tok/s로 확인됐어요. 에이전트 코딩, 디버깅, 문서 작업 20시간 동안 6,454개 샘플을 측정했으며, 최대 토큰 처리량은 233 tok/s 였어요. llama.cpp의 하이브리드 어텐션/SWA 캐시 처리 방식이 완벽하지 않아 프롬프트 재처리 경고가 발생할 수 있으며, 설정 공유 가능해요.