exo 프로젝트가 Qwen3.6 스타일 MLX 체크포인트에 네이티브 멀티 토큰 예측(MTP) 지원을 추가했습니다. 이를 통해 27B 모델의 경우 최대 1.97배 빠른 추론 속도를 얻을 수 있습니다.
MTP는 생성 속도를 높이지만, 모델은 생성된 토큰을 검증하여 정확성을 유지하며, K 값을 높일수록 수용률과 속도가 달라집니다. 35B-A3B 모델에서는 K=1 설정이 가장 효과적입니다.
이번 업데이트는 단일 노드 환경에서만 지원되며, 향후 멀티 노드 분산 환경에서도 활용될 예정입니다.