사용자가 구형 1080ti GPU에서 Gemma 12B QAT 모델을 성공적으로 구동했어요. 50 토큰/초의 속도를 기록하며, 성능 향상을 위한 제안을 환영해요. 추론 디코딩 모델 초안이 성능에 미치는 영향은 불확실하지만, 빠르고 일관성이 있어 만족스럽다고 언급했어요.
llama-server 명령어를 통해 Gemma 12B QAT 모델을 실행했으며, 16384의 컨텍스트 크기와 99개의 레이어를 사용했어요. 캐시 타입은 q8_0으로 설정하고, 배치 사이즈는 512, 스레드는 4개를 사용했어요.
추론 디코딩 관련 설정도 함께 적용했으며, 모델 초안을 MTP 형식으로 사용하고, 최대 2개의 초안을 사용하도록 설정했어요.