DUAL-BLADE는 엣지 AI 시스템에서 LLM 추론 시 KV 캐시 메모리 부족 문제를 해결하기 위한 새로운 프레임워크예요. NVMe 직접 경로를 활용하여 파일 시스템의 페이지 캐시를 우회하고, KV 텐서를 직접 저장하여 오버헤드를 줄였어요. 실험 결과, DUAL-BLADE는 I/O 병목 현상을 완화하고, 사전 채우기 및 디코딩 지연 시간을 각각 최대 33.1%, 42.4%까지 줄였어요.