Pulse · AI 뉴스

llama.cpp에 MTP 지원 추가… AI Max 395에서 최대 80 토큰/초 달성

llama.cpp · 2026-05-06

llama.cpp에 MTP (Mixture of Tensor Parallelism) 지원이 추가되어 AI Max 395에서 토큰 처리 속도가 최대 80 토큰/초까지 향상되었습니다.

MTP를 적용했을 때 PP (perplexity)는 변화가 없었으며, GGUF 파일 크기는 약 36GB로 거의 동일했습니다.

Qwen3.6-35BA3B-MTP-GGUF 모델을 사용하여 실험했으며, qwen 3.5 122B 모델에서도 테스트할 예정입니다.

##llama.cpp##MTP##AIMax395##Qwen

매일 핵심 AI 소식을 한국어로, 빠르게