Pulse · AI 뉴스

Qwen 3.6-35B-A3B KV 캐시 벤치마크: f16 vs q8_0 vs turbo3 vs turbo4, 0부터 1M 컨텍스트까지 M5 Max에서

Qwen · 2026-04-29

Qwen 3.6-35B-A3B 모델의 KV 캐시 성능을 M5 Max에서 다양한 방식으로 테스트했어요. 컨텍스트 길이에 따라 f16, q8_0, turbo3, turbo4의 성능 차이가 달라지는 것을 확인했어요.

특히, 128K 컨텍스트에서는 3비트 캐시(turbo3)가 8비트 캐시(q8_0)와 비슷한 성능을 보였고, 256K에서는 turbo3가, 512K에서는 turbo4가 더 빠른 속도를 보여줬어요.

컨텍스트 길이 100만 토큰까지도 turbo3를 사용하여 처리할 수 있었는데, 메모리 사용량이 89GB로 128GB 메모리 시스템에서 실행 가능했어요.

##Qwen##KV캐시##turboquant##M5Max##벤치마크
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기