연구진이 장문 컨텍스트 LLM 추론 시 KV 캐시 메모리 병목 현상을 해결하기 위해 SeKV를 제안했어요. SeKV는 엔트로피 기반 의미 스팬으로 컨텍스트를 구성하고 GPU-CPU 메모리 계층에 저장하며 정보를 버리지 않아요.
SeKV는 쿼리에 관련된 스팬을 선택적으로 확장하는 '확대' 메커니즘을 활용하여 전체 KV 캐시를 GPU에 구체화하지 않고도 정확한 토큰 검색을 가능하게 해요.
SeKV는 4가지 벤치마크에서 기존 방법보다 평균 5.9% 성능을 향상시키고 128K 컨텍스트에서 GPU 메모리를 53.3% 줄이는 효과를 보여줬어요.