LLM이 장문 컨텍스트 추론을 지원하지만, 키-값(KV) 캐시 증가로 인해 메모리 및 런타임 오버헤드가 발생합니다.
연구진은 KV 캐시 제거를 기존의 헤드별 가중치 평균 방식에서 출력 기반의 계층별 행렬 곱셈 근사 문제로 재정의했습니다.
LaProx는 어텐션 맵과 투사된 값 상태 간의 곱셈 상호작용을 명시적으로 모델링하여 토큰 기여도를 정확하게 측정하고, 기존 방식보다 5%의 KV 캐시만으로 모델 성능을 유지하며 최대 2배의 정확도 손실 감소 효과를 보였습니다.