연구진은 LLM의 KV 캐시 메모리 병목 현상을 해결하기 위해 OScaR(Omni-Scaled Canalized Rotation) 프레임워크를 제안했어요.
OScaR은 토큰 정규 임 balance(TNI) 문제를 해결하기 위해 Canalized Rotation과 Omni-Token Scaling을 사용하며, 기존 방법보다 정확하고 가벼워요.
실험 결과, OScaR은 INT2 양자화에서 거의 손실 없는 성능을 보이며, BF16 FlashDecoding-v2 대비 최대 3.0배 빠른 속도와 5.3배 적은 메모리 사용량을 달성했어요.