연구진은 스트리밍 워크로드에서 발생하는 높은 prefill 비용 문제를 해결하기 위해 상태 기반 세션을 활용한 새로운 데이터 기반 연산 모델을 제시했습니다.
Flash Queries를 통해 데이터 도착 간 유휴 GPU 사이클을 활용하여 사용자 질문에 미리 답을 계산하고 캐싱하여 쿼리 지연 시간을 단축했습니다.
실험 결과, 기존 추론 엔진(vLLM, SGLang, TensorRT-LLM, llama.cpp) 대비 최대 5.9배의 속도 향상을 달성하며, 누적 컨텍스트 크기가 증가해도 쿼리 지연 시간을 일정하게 유지했습니다.