Qwen3.6-35B-A3B 모델을 8GB 3070 Ti에서 262K 컨텍스트로 실행하며 30tps를 달성했어요. 이는 MoE 모델의 특성과 Linux 환경 최적화 덕분입니다.
Ubuntu Server 환경에서 Windows 11 환경보다 시스템 RAM 사용량이 줄고, 추론 속도가 최대 25% 향상되는 효과를 보였어요. 1M 컨텍스트까지도 안정적으로 실행 가능합니다.
GPU 메모리 사용량과 시스템 RAM 사용량을 줄이기 위해 불필요한 운영체제 기능을 최소화하고, 적절한 양자화 방식을 적용하는 것이 중요합니다.