구글이 Gemma 4 모델의 MTP(Multi-Token Prediction) 드래프트 모델을 공개했어요. MTP는 추론 속도를 최대 2배까지 향상시키는 기술로, 저지연 및 온디바이스 애플리케이션에 적합합니다. 이 모델은 Speculative Decoding 파이프라인에서 사용되며, 기존 생성 방식과 동일한 품질을 보장합니다.