SIFT는 RAG(Retrieval-Augmented Generation) 쿼리의 처리 속도를 높이기 위해 개발된 새로운 방법론입니다.
SIFT는 문서 내 고도 주의(attention) 위치를 추출하고, 이를 바탕으로 문서 처리 시 불필요한 계산을 줄여 TTFT(Time To First Token)를 1.71배 향상시킵니다.
기존 방식 대비 SIFT는 KV 텐서 대신 24,000배 더 작은 크기의 위치 정보만 저장하여 디스크 전송 비용을 절감하고 정확도를 1% 이내로 유지합니다.