Gemma 4 Heretic 모델로 MTP(Mixed-Expert Speculative Decoding)를 실험한 결과, 어시스턴트 모델에 따라 성능 차이가 매우 컸어요. 같은 이름의 모델이라도 Hugging Face에서 다운로드한 모델 간에 성능이 다를 수 있어요.
12B 및 31B 모델에서 정량화되지 않은 어시스턴트 모델이 정량화된 모델보다 성능이 높았으며, MTP 활성화 여부를 로그로 확인하는 것이 중요해요. MTP가 제대로 작동하지 않으면 단순히 베이스 모델만 벤치마킹하는 것과 같습니다.
올바른 어시스턴트 모델을 찾으면 2배의 속도 향상을 얻을 수 있으며, MTP를 처음 시도했을 때 결과가 좋지 않았다면 다른 어시스턴트 모델을 시도해 볼 필요가 있어요.