Zhongzhu Zhou 연구팀이 OSCAR RotationZoo를 공개했어요. 이 프로젝트는 2비트 KV 캐시 양자화를 위한 사전 계산 로테이션을 제공합니다. OSCAR은 Q/K/V 활성화를 캡처하고 주의-인식 K/V 공분산을 오프라인으로 추정하여 INT2 양자화와 일치하는 직교 로테이션을 파생합니다. 이를 통해 KV 캐시 메모리 공간을 약 7배 줄이고 GPQA에서 단 한 자릿수 성능 저하를 달성했어요.
사전 계산된 로테이션은 .pt 파일 형태로 제공되어 사용자가 직접 Q/K/V 덤프 및 고유값 분해를 수행할 필요가 없어요. Qwen/Qwen3 모델에 적용하여 GPQA 성능을 향상시킬 수 있으며, llama.cpp 적용도 기대됩니다. 연구 결과는 arXiv에 공개되었으며
연구팀은 30-40B MOE 모델을 8GB VRAM으로 더 빠르고 효율적으로 실행하는 것을 목표로 하고 있으며, 지속적인 업데이트를 약속했어요.