Pulse · AI 뉴스

llama.cpp b9455 빌드에서 Qwen3.6-27B-UD-Q8_K_XL로 70+ tk/s 달성

Qwen · 2026-06-03

Reddit 사용자가 llama.cpp b9455 빌드에서 Unsloth의 Qwen3.6-27B-UD-Q8_K_XL 양자화 모델을 사용하여 70+ tk/s의 빠른 속도를 달성했어요.

이전 버전보다 코드 출력 품질이 개선되었으며, 262144 컨텍스트 크기를 지원하고 30% 빠른 추론 성능을 보여줘요.

6만 토큰 이상의 컨텍스트를 처리할 때 초기 채우기(pp)에 상당한 시간이 소요될 수 있으며, 10만 토큰까지는 60초 이상 소요될 수 있어요.

##llama.cpp##Qwen3.6##양자화##성능

매일 핵심 AI 소식을 한국어로, 빠르게