Pulse · AI 뉴스

RAG의 지연 감소를 위한 예측 프리페칭

Retrieval-Augmented Generation · 2026-05-18

Retrieval-Augmented Generation(RAG)은 사실 기반을 강화하지만 동기식 검색으로 인해 지연이 심각합니다. 본 논문은 생성 과정에서 나타나는 의미적 전조를 활용하여 정보 요구에 맞춰 예측 프리페칭을 가능하게 하는 새로운 비동기식 검색 프레임워크를 제안합니다. 실험 결과, 엔드투엔드 지연을 최대 43.5% 줄이고, 첫 번째 토큰 시간(time-to-first-token)을 62.4% 개선했습니다.

프레임워크는 검색 예측기, 컨텍스트 모니터, 쿼리 생성기로 구성되어 있으며, 검색 시점과 정보를 예측합니다. 기존 방식의 휴리스틱 기반 조정과 안정적인 정보 수요를 가정하는 단점을 극복합니다.

동기식 RAG와 비교하여 답변 품질을 유지하면서 검색 효율성을 높였습니다.

##RAG##LLM##검색##최적화
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기