Llama.cpp가 MTP (Multi-Token Processing) 지원 베타 버전을 공개했어요. Aman 님을 비롯한 여러 개발자들의 노력으로 빠르게 개발되었으며, 곧 정식 반영될 가능성이 높습니다. 이번 업데이트는 Qwen3.5 MTP 모델을 지원하며, 다른 모델에 대한 지원도 추가될 예정입니다. MTP 지원과 텐서 병렬 처리 지원이 발전하면서 Llama.cpp와 vLLM 간의 토큰 생성 속도 격차가 줄어들 것으로 예상됩니다.