OSCAR는 2비트 KV 캐시 양자화 방식의 새로운 방법론입니다. 오프라인에서 어텐션에 따른 공분산 구조를 추정하여 고정된 회전 및 클리핑 임계값을 도출합니다. Qwen3-4B-Thinking-2507 모델에서 BF16 대비 정확도 격차를 3.78 포인트까지 줄였습니다.
OSCAR는 Qwen3-32B 및 GLM-4.7(358B 파라미터)에 적용 가능하며, BF16과 거의 동등한 성능을 유지합니다. 128K 토큰의 긴 컨텍스트 환경에서도 Qwen3 모델에서 안정적인 성능을 보였습니다.
KV 캐시 메모리를 약 8배 줄이고, 큰 배치 크기에서 최대 7배의 처리량을 향상시켰습니다. 배치 크기가 1인 디코딩 속도는 BF16 대비 최대 3배 가속화되었습니다.