ByteShape와 Unsloth의 Qwen3.6-35B-A3B GGUF 양자화 모델 성능을 비교하는 벤치마크를 진행했어요. ByteShape의 ~4bpw 양자화는 원본 모델 성능의 99% 이상을 유지하며, Unsloth와 유사한 성능을 보여요.
KV 캐시 양자화는 실제 성능에 영향을 미치는데, q8_0은 거의 무료 점심과 같은 효과를 주지만 q4_0은 성능 저하를 유발해요.
긴 컨텍스트 환경에서 도구 호출 성능은 모든 시나리오에서 저하되는 경향을 보이며, 짧은 프롬프트 환경과 비교했을 때 차이가 뚜렷해요.