사용자가 8GB VRAM과 32GB RAM을 갖춘 노트북에서 Qwen3.6 35B A3B 모델을 실행하며, 약 19만 토큰의 컨텍스트를 처리하는 설정을 공유했습니다.
`llama-cpp-turboquant` 포크를 사용하고, 다양한 파라미터 튜닝을 통해 초당 51 토큰까지 속도를 낼 수 있었습니다.
Q4 양자화 모델보다 Q5 양자화 모델이 장기 추론에 더 유리하며, Linux 환경이 Windows보다 성능이 우수하다고 언급했습니다.
더 나은 장기 컨텍스트 안정성, 높은 토큰 처리량, `n-cpu-moe` 튜닝을 위한 최적화 아이디어를 환영합니다.