spiritbuun의 CUDA 최적화와 mudler의 APEX 양자화 덕분에 RTX 3060 12GB에 17.3GB 모델을 로드해 72K 컨텍스트를 채운 상태에서 37t/s의 빠른 생성 속도를 달성했어요.
Qwen3.6-35B-A3B-APEX-MTP-I-Compact 모델을 사용할 때 MTP를 끄면 생성 속도가 향상되며, mudler의 APEX 양자화 방식이 다른 방식보다 우수한 성능을 보였어요.
컨텍스트 크기가 증가하면 생성 속도가 저하되지만, 129K 컨텍스트에서도 28.08t/s의 속도를 유지하며, Needle-in-a-haystack 테스트에서 100%의 정확도를 기록했어요.