연구팀은 LVLM 추론 시 KV 캐시 메모리 오버헤드를 줄이기 위해 LightKV라는 새로운 방법을 제안했습니다. LightKV는 텍스트 프롬프트 기반 교차 모달 메시지 전달을 통해 비전 토큰 임베딩의 중복성을 활용하여 KV 캐시 크기를 줄입니다. 실험 결과, LightKV는 원본 비전 토큰의 55%만으로 KV 캐시 크기를 절반으로 줄이고, 연산량을 최대 40%까지 감소시켰으며, 기존 방식보다 성능이 우수했습니다.