Reddit 사용자가 llama.cpp b9455 빌드에서 Unsloth의 Qwen3.6-27B-UD-Q8_K_XL 양자화 모델을 사용하여 70+ tk/s의 빠른 속도를 달성했어요. 이전 버전보다 코드 출력 품질이 개선되었으며, 262144 컨텍스트 크기를 지원하고 30% 빠른 추론 성능을 보여줘요. 6만 토큰 이상의 컨텍스트를 처리할 때 초기 채우기(pp)에 상당한 시간이 소요될 수 있으며, 10만 토큰까지는 60초 이상 소요될 수 있어요.