사용자가 GTX 1080 그래픽 카드를 장착한 구형 시스템에서 Qwen 3.6 35B-A3B와 Gemma 4 26B-A4B 모델을 128K 컨텍스트 환경에서 실행하는 데 성공했습니다.
TurboQuant/RotorQuant KV 캐시 양자화 기술을 활용하여 8GB VRAM 내에서 모델을 구동했으며, PCIe 3.0 x16 대역폭 제한으로 인해 GPU 사용률이 40-50% 수준입니다.
Gemma 4의 MTP(Massively Parallel Tensor) 추론 방식은 토큰 임베딩 테이블을 GPU로 강제 이전해야 성능 향상을 확인할 수 있으며, 이를 통해 약 22%의 속도 향상을 얻었습니다.