Multi-Token Prediction(MTP) 기술이 Gemma 4 31B와 Qwen 3.6 27B에서 vLLM과 llama.cpp를 통해 추론 속도를 최대 3.34배 향상시키는 것으로 나타났어요.
MTP는 주요 AI 연구소들이 조용히 도입하고 있는 기술로, 모델 성능을 최적화하는 데 중요한 역할을 하는 것으로 보입니다.
vLLM은 Gemma 4에서 132.52 tok/s, llama.cpp는 Qwen 3.6에서 117.70 tok/s의 속도를 기록했으며, 이는 기존 방식 대비 상당한 개선을 의미해요.
MTP는 메모리 대역폭 병목 현상을 해소하고, 추론 속도 향상으로 비용 절감 및 사용자 증가를 가져올 수 있다는 점이 주목할 만해요.
GitHub 저장소에서 전체 설정, 벤치마크 스크립트, CSV 결과 등을 확인할 수 있으며, MTP 기술에 대한 추가적인 정보와 인사이트를 얻을 수 있습니다.