Pulse · AI 뉴스

OScaR: LLM KV 캐시 극단적 양자화의 Occam's Razor

OScaR · 2026-05-19

연구진은 LLM의 KV 캐시 메모리 병목 현상을 해결하기 위해 OScaR(Omni-Scaled Canalized Rotation) 프레임워크를 제안했어요.

OScaR은 토큰 정규 임 balance(TNI) 문제를 해결하기 위해 Canalized Rotation과 Omni-Token Scaling을 사용하며, 기존 방법보다 정확하고 가벼워요.

실험 결과, OScaR은 INT2 양자화에서 거의 손실 없는 성능을 보이며, BF16 FlashDecoding-v2 대비 최대 3.0배 빠른 속도와 5.3배 적은 메모리 사용량을 달성했어요.

##LLM##양자화##KV캐시##OScaR##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기