LLaMA.cpp에 Multi-Token Prediction (MTP)을 적용하여 Gemma 4 모델의 토큰 생성 속도를 40% 향상시켰습니다. Gemma 4 어시스턴트 모델을 GGUF 형식으로 양자화하여 MacBook Pro M5Max에서 테스트했습니다. AtomicChat 앱에서 양자화된 Gemma 4 모델을 사용할 수 있으며, 관련 llama.cpp 패치는 GitHub에서 확인할 수 있습니다.