RTX 3060 12GB VRAM 환경에서 Qwen 35B-A3B 모델을 활용한 실험 결과, 16K/32K 컨텍스트 사이즈를 유지하며 코딩 작업에 충분한 성능을 낼 수 있음을 확인했습니다.
최적의 설정은 -ncmoe 20, -c 32768, q8_0 KV 캐시를 사용하는 것으로 나타났으며, 이 설정에서 프롬프트 처리 속도는 약 88.9 t/s, 생성 속도는 43.4 t/s를 기록했습니다.
MTP (Speculative Decoding)를 적용했을 때 약간의 속도 향상을 얻을 수 있었지만, 일반적인 코딩 작업에서는 32K 컨텍스트를 사용하는 설정이 더 효율적이라고 판단했습니다.
MoE 모델의 경우 12GB VRAM은 GPU 전문가 블록을 충분히 유지하여 빠른 성능을 내기에 적합한 환경이며, KV 캐시를 q8_0으로 설정하는 것이 유리합니다.