Pulse · AI 뉴스

LLM 장문 컨텍스트 추론을 위한 KV 캐시 제거 문제 재정의

LaProx · 2026-05-08

LLM이 장문 컨텍스트 추론을 지원하지만, 키-값(KV) 캐시 증가로 인해 메모리 및 런타임 오버헤드가 발생합니다.

연구진은 KV 캐시 제거를 기존의 헤드별 가중치 평균 방식에서 출력 기반의 계층별 행렬 곱셈 근사 문제로 재정의했습니다.

LaProx는 어텐션 맵과 투사된 값 상태 간의 곱셈 상호작용을 명시적으로 모델링하여 토큰 기여도를 정확하게 측정하고, 기존 방식보다 5%의 KV 캐시만으로 모델 성능을 유지하며 최대 2배의 정확도 손실 감소 효과를 보였습니다.

##LLM##KV캐시##LaProx##장문컨텍스트

매일 핵심 AI 소식을 한국어로, 빠르게