Pulse · AI 뉴스

OSCAR: 2비트 KV 캐시 양자화 방식, 오프라인 스펙트럼 공분산 활용

Qwen · 2026-05-18

OSCAR는 2비트 KV 캐시 양자화 방식의 새로운 방법론입니다. 오프라인에서 어텐션에 따른 공분산 구조를 추정하여 고정된 회전 및 클리핑 임계값을 도출합니다. Qwen3-4B-Thinking-2507 모델에서 BF16 대비 정확도 격차를 3.78 포인트까지 줄였습니다.

OSCAR는 Qwen3-32B 및 GLM-4.7(358B 파라미터)에 적용 가능하며, BF16과 거의 동등한 성능을 유지합니다. 128K 토큰의 긴 컨텍스트 환경에서도 Qwen3 모델에서 안정적인 성능을 보였습니다.

KV 캐시 메모리를 약 8배 줄이고, 큰 배치 크기에서 최대 7배의 처리량을 향상시켰습니다. 배치 크기가 1인 디코딩 속도는 BF16 대비 최대 3배 가속화되었습니다.

##양자화##KV캐시##OSCAR##Qwen3
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기