Reddit 사용자 AdMinimum8193가 5060Ti 16GB GPU 환경에서 Qwen3.6-35B-A3B-UD-Q5_K_M 모델을 llama.cpp로 실행한 결과를 공유했습니다.
llama.cpp를 직접 빌드하여 사용했을 때, 이전 버전보다 약 10% 성능이 향상된 것으로 나타났으며, Qwen3.5 모델 실행 속도가 거의 두 배로 빨라졌습니다.
테스트 결과, qwen35moe 35B.A3B Q5_K 모델은 pp512 환경에서 초당 628.10 토큰을 처리했으며, tg128 환경에서는 32.56 토큰을 처리했습니다.