사용자는 Qwen 3.6 27B와 35B-A3B 모델을 활용하며, 35B 모델을 주로 사용하고 27B는 복잡한 작업에 활용하고 있다고 밝혔습니다.
현재 27B 모델은 128K 컨텍스트로 q8 양자화, 35B-A3B 모델은 128K 컨텍스트로 q4 양자화하여 사용 중이며, 35B 모델은 약 120 tok/s, 27B 모델은 약 20 tok/s의 속도를 보입니다.
사용자는 추가적인 최적화 없이 VRAM에 모델을 상시 로드하는 방식을 선호하며, 현재 설정에서 3090 그래픽 카드가 유휴 상태로 남아있는 점에 대한 고민을 하고 있습니다.