연구진이 반복적인 입력 패턴을 재사용하는 Retrieval-augmented 및 agentic 워크로드에 최적화된 MiniPIC을 개발했어요.
MiniPIC은 기존 vLLM 설계의 한계를 극복하고, 위치 독립적 캐싱(PIC)을 구현하는 데 필요한 서버 코드 변경을 최소화했어요.
2WikiMultihopQA 벤치마크에서 MiniPIC은 선행 캐싱 대비 최대 49%의 프리필 처리량 향상과 캐시된 스팬의 시간-최초 토큰 시간을 두 배 이상 단축했어요.