Pulse · AI 뉴스

SIFT: RAG Prefill 속도 향상을 위한 선택적 인덱싱

SIFT · 2026-06-08

SIFT는 RAG(Retrieval-Augmented Generation) 쿼리의 처리 속도를 높이기 위해 개발된 새로운 방법론입니다.

SIFT는 문서 내 고도 주의(attention) 위치를 추출하고, 이를 바탕으로 문서 처리 시 불필요한 계산을 줄여 TTFT(Time To First Token)를 1.71배 향상시킵니다.

기존 방식 대비 SIFT는 KV 텐서 대신 24,000배 더 작은 크기의 위치 정보만 저장하여 디스크 전송 비용을 절감하고 정확도를 1% 이내로 유지합니다.

##RAG##LLM##Attention##SIFT
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기