사용자가 Tesla P40에서 Qwen 3.6 MTP 스펙 디코딩 시 K 캐시 양자화 시 문제가 발생했다고 공유했어요. F16으로 K 캐시를 실행하지 않으면 20t/s 속도로 Q5 양자화된 Qwen 3.6 27B 모델을 실행할 수 없다고 설명했어요.
atomic-llama-cpp-turboquant 포크에서 MTP를 사용하기 위해 K 캐시 양자화를 시도했을 때, 예상치 못한 문자 출력이 발생했어요.
사용자는 문제 해결을 위해 K 캐시를 F16으로 실행하는 방법을 찾았으며, 관련 PowerShell 시작 스크립트를 공유했어요.