사용자가 MTP (MTP)를 Qwen3.6-27B와 함께 사용하며 코드 보조 업무를 수행한 결과, 컨텍스트 길이가 85K를 넘어서면 생성 속도가 30~35%까지 감소하는 것을 확인했습니다. 콜드 프리필은 성능 저하를 유발하지만, KV 캐시 슬롯 저장 기능이 히트율을 높이는 데 기여하고 있습니다. llama-server를 통해 수집한 메트릭을 그래프로 정리하여 세부적인 내용과 관찰 결과를 공유했습니다.