Pulse · AI 뉴스

DUAL-BLADE: NVMe 직접 KV 캐시 오프로딩을 통한 엣지 LLM 추론 성능 향상

arXiv cs.AI · 2026-04-29

DUAL-BLADE는 엣지 AI 시스템에서 LLM 추론 시 KV 캐시 메모리 부족 문제를 해결하기 위한 새로운 프레임워크예요.

NVMe 직접 경로를 활용하여 파일 시스템의 페이지 캐시를 우회하고, KV 텐서를 직접 저장하여 오버헤드를 줄였어요.

실험 결과, DUAL-BLADE는 I/O 병목 현상을 완화하고, 사전 채우기 및 디코딩 지연 시간을 각각 최대 33.1%, 42.4%까지 줄였어요.

##LLM##엣지AI##NVMe##KV캐시##오프로딩

매일 핵심 AI 소식을 한국어로, 빠르게