Pulse · AI 뉴스

MTP, Qwen3.6-27B와 함께 사용 시 실제 성능은?

Qwen · 2026-05-07

사용자가 MTP (MTP)를 Qwen3.6-27B와 함께 사용하며 코드 보조 업무를 수행한 결과, 컨텍스트 길이가 85K를 넘어서면 생성 속도가 30~35%까지 감소하는 것을 확인했습니다.

콜드 프리필은 성능 저하를 유발하지만, KV 캐시 슬롯 저장 기능이 히트율을 높이는 데 기여하고 있습니다.

llama-server를 통해 수집한 메트릭을 그래프로 정리하여 세부적인 내용과 관찰 결과를 공유했습니다.

##MTP##Qwen##llama.cpp##성능

매일 핵심 AI 소식을 한국어로, 빠르게