Qwen 3.6 모델을 100만 토큰(1M) 컨텍스트 환경에서 KV 캐시 압축을 적용한 결과, 메모리 사용량이 크게 감소했습니다. KV 캐시는 10.74GB에서 6.92GB로, V 캐시는 5.37GB에서 1.55GB로 줄어들며 각각 약 3.5배의 압축 효과를 보였습니다. 초기 테스트에서 PPL(Perplexity) 변화가 거의 없었으며, 현재는 메모리 효율성과 장문 컨텍스트 처리 성능에 집중하고 있습니다.