Pulse · AI 뉴스

Qwen 3.6 모델, KV 캐시 압축으로 메모리 사용량 10.7GB → 6.9GB로 감소

Qwen · 2026-04-19

Qwen 3.6 모델의 KV 캐시를 직접 압축하여 메모리 사용량을 크게 줄이는 방법을 연구했어요. V 텐서를 INT2/INT3로 압축하여 V 텐서의 크기를 기존 대비 3.5배 줄였어요.

기존 방식인 eviction이나 rank reduction과 비교했을 때, KV 캐시 압축은 V 텐서가 예상보다 훨씬 잘 압축된다는 점을 발견했어요.

현재까지는 생성 품질에 큰 변화가 없는 것으로 보이며, 추가적인 실험을 통해 더 자세한 분석을 진행할 예정이에요.

##모델최적화##Qwen##KV캐시

매일 핵심 AI 소식을 한국어로, 빠르게