Qwen 3.6-35B-A3B 모델의 KV 캐시 성능을 M5 Max에서 다양한 방식으로 테스트했어요. 컨텍스트 길이에 따라 f16, q8_0, turbo3, turbo4의 성능 차이가 달라지는 것을 확인했어요.
특히, 128K 컨텍스트에서는 3비트 캐시(turbo3)가 8비트 캐시(q8_0)와 비슷한 성능을 보였고, 256K에서는 turbo3가, 512K에서는 turbo4가 더 빠른 속도를 보여줬어요.
컨텍스트 길이 100만 토큰까지도 turbo3를 사용하여 처리할 수 있었는데, 메모리 사용량이 89GB로 128GB 메모리 시스템에서 실행 가능했어요.