Pulse · AI 뉴스

상태 기반 트랜스포머로 효율적인 스트리밍 추론 구현

Flash Queries · 2026-05-14

연구진은 스트리밍 워크로드에서 발생하는 높은 prefill 비용 문제를 해결하기 위해 상태 기반 세션을 활용한 새로운 데이터 기반 연산 모델을 제시했습니다.

Flash Queries를 통해 데이터 도착 간 유휴 GPU 사이클을 활용하여 사용자 질문에 미리 답을 계산하고 캐싱하여 쿼리 지연 시간을 단축했습니다.

실험 결과, 기존 추론 엔진(vLLM, SGLang, TensorRT-LLM, llama.cpp) 대비 최대 5.9배의 속도 향상을 달성하며, 누적 컨텍스트 크기가 증가해도 쿼리 지연 시간을 일정하게 유지했습니다.

##스트리밍##트랜스포머##추론##FlashQueries##상태기반

매일 핵심 AI 소식을 한국어로, 빠르게