Pulse · AI 뉴스

Qwen3.6 27B 모델, 5090 GPU 환경에서 튜닝 후 토큰 처리량 측정 결과 공유

Qwen · 2026-07-05

Qwen3.6 27B 모델을 9800X3D / 64GB / 5090 환경에서 llama.cpp로 튜닝한 결과, 평균 토큰 처리량이 140.7 tok/s로 확인됐어요.

에이전트 코딩, 디버깅, 문서 작업 20시간 동안 6,454개 샘플을 측정했으며, 최대 토큰 처리량은 233 tok/s 였어요.

llama.cpp의 하이브리드 어텐션/SWA 캐시 처리 방식이 완벽하지 않아 프롬프트 재처리 경고가 발생할 수 있으며, 설정 공유 가능해요.

##Qwen##llama.cpp##GPU##성능

매일 핵심 AI 소식을 한국어로, 빠르게