연구진은 LLM의 KV 캐시 메모리 병목 현상 해결을 위해 OScaR(Omni-Scaled Canalized Rotation) 프레임워크를 제안했어요.
OScaR은 토큰 정규 임 balance(TNI) 문제를 해결하기 위해 Canalized Rotation과 Omni-Token Scaling을 사용해 시퀀스 차원 분산을 효과적으로 줄여요.
실험 결과, OScaR은 기존 방법보다 뛰어난 성능을 보이며 INT2 양자화 시 거의 손실 없는 성능을 달성하고, BF16 FlashDecoding-v2 대비 최대 3.0배 속도 향상, 메모리 감소 5.3배, 처리량 증가 4.1배를 기록했어요.