사용자가 llama.cpp에서 Qwen 27B 모델을 9070xt GPU로 추론할 때 12토큰/초의 속도를 기록했습니다. GPU 메모리(999 레이어) 및 컨텍스트 길이(65536)를 최대치로 설정하고, 배치 크기 512, ubatch-size 128 옵션을 사용했습니다. 사용자는 속도 향상을 위한 방법을 문의했으며, 스레드 수 6, 캐시 타입 Q4_0 옵션을 적용했습니다.