Qwen 3.6 모델의 KV 캐시를 직접 압축하여 메모리 사용량을 크게 줄이는 방법을 연구했어요. V 텐서를 INT2/INT3로 압축하여 V 텐서의 크기를 기존 대비 3.5배 줄였어요.
기존 방식인 eviction이나 rank reduction과 비교했을 때, KV 캐시 압축은 V 텐서가 예상보다 훨씬 잘 압축된다는 점을 발견했어요.
현재까지는 생성 품질에 큰 변화가 없는 것으로 보이며, 추가적인 실험을 통해 더 자세한 분석을 진행할 예정이에요.