Pulse · AI 뉴스

MTP 적용 시 Qwen3.6 MoE 성능 변화 없음

Qwen · 2026-06-04

RTX 5060Ti 사용자가 Qwen3.6-35B GGUF 모델에서 MTP(Mixture of Prompt Tuning)를 적용해도 토큰 생성 속도가 60 tok/s로 변하지 않는 문제점을 공유했어요. 다양한 시도를 했지만 속도 변화가 미미했어요. MTP는 일반적으로 속도 향상을 제공하는 것으로 알려져 있어, 원인을 찾고자 커뮤니티에 도움을 요청했어요.

llama-server 실행 시 다양한 플래그를 사용했는데, MTP 적용 여부와 관계없이 속도가 동일하게 측정됐어요. 컨텍스트 크기 감소, 캐시 양자화 제거, mmap 비활성화 등 여러 방법을 시도했지만 결과는 동일했어요.

MTP는 프롬프트 튜닝을 통해 모델 성능을 향상시키는 기술이지만, 사용자의 환경에서는 기대한 만큼의 효과를 보지 못하고 있어요. 다른 사용자들의 경험을 공유하거나 문제 해결 방법을 찾고자 Reddit에 게시글을 올렸어요.

##Qwen##MTP##MoE##llama-server##성능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기