Pulse · AI 뉴스

exo, Qwen3.6 MLX 모델에 네이티브 MTP 지원 추가… 성능 및 정확도 결과 공개

exo · 2026-05-23

exo 프로젝트가 Qwen3.6 스타일 MLX 체크포인트에 네이티브 멀티 토큰 예측(MTP) 지원을 추가했습니다. 이를 통해 27B 모델의 경우 최대 1.97배 빠른 추론 속도를 얻을 수 있습니다.

MTP는 생성 속도를 높이지만, 모델은 생성된 토큰을 검증하여 정확성을 유지하며, K 값을 높일수록 수용률과 속도가 달라집니다. 35B-A3B 모델에서는 K=1 설정이 가장 효과적입니다.

이번 업데이트는 단일 노드 환경에서만 지원되며, 향후 멀티 노드 분산 환경에서도 활용될 예정입니다.

##exo##Qwen##MTP##MLX##모델최적화

매일 핵심 AI 소식을 한국어로, 빠르게