Pulse · AI 뉴스

Qwen 3.6-35B-A3B KV 캐시 파트 2: PPL, KL 발산, 비대칭 K/V, M5 Max에서 64K 행

Qwen · 2026-04-30

Qwen 3.6-35B-A3B 모델의 KV 캐시 성능을 M5 Max에서 테스트한 결과, 다양한 양자화 방식과 비대칭 K/V 조합에 따른 perplexity(PPL), KL 발산, 토큰 일치율 등을 측정했습니다.

비대칭 K/V 조합 중 -ctk q8_0 -ctv turbo4는 256K 컨텍스트에서 symmetric q8_0과 비슷한 처리량을 보이면서도 더 큰 컨텍스트 크기를 지원하는 장점을 보였습니다.

64K 컨텍스트에서 turbo3는 q8_0에 거의 근접한 성능을 보였으며, 다양한 설정에서 symmetric q8_0 prefill을 유사하게 추적하는 것으로 나타났습니다.

##Qwen##양자화##KV캐시##M5Max##비대칭K/V
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기