ByteShape에서 Qwen3.6-35B-A3B 모델을 위한 새로운 양자화 방식을 공개했어요. 이 방식은 6GB VRAM 노트북에서 Unsloth IQ보다 30% 빠른 성능을 보여줘요.
ByteShape 양자화 모델은 Unsloth 양자화 모델보다 약간 더 큰 용량(18.3GB vs 17.7GB)이지만, 생성 속도는 30% 더 빠르며, 부분 CPU 오프로드 시 약간 느린 처리량(PP) 속도를 보입니다.
Ryzen 7 5800HS와 RTX 3060 6GB GPU를 탑재한 노트북에서 테스트한 결과, 65536 컨텍스트 크기에서 Qwen3.6-35B-A3B 모델의 성능을 비교했습니다.