SCAR(Semantic Continuity-Aware Retrieval)은 RAG 시스템에서 중요한 증거가 분산되는 경계 단편화 문제를 해결하기 위해 고안된 새로운 검색 정책입니다. SCAR은 쿼리와 인접한 텍스트 조각의 관련성을 평가하고 구조적 연속성 페널티를 적용하여 컨텍스트를 확장합니다. 실험 결과, SCAR은 기존 방식보다 22.9% 적은 텍스트 조각으로 92.8%의 높은 검색 정확도를 달성했습니다.
SCAR은 텍스트 임베딩 모델에 상관없이 동일한 하이퍼파라미터 설정으로 적용 가능하며, 10-K 보고서 데이터셋에서 생성된 콘텐츠의 충실도를 유지하면서 컨텍스트 토큰을 27.1% 줄였습니다. RFC, GDPR, 10-K 보고서, 합병 계약 등 다양한 데이터셋에서 효과를 검증받았습니다.
SCAR은 기존 방식 대비 텍스트 조각 수를 줄이면서도 검색 정확도를 높여 RAG 시스템의 효율성을 향상시키는 데 기여하며, 3가지 임베딩 모델에서도 동일한 설정으로 적용 가능함을 입증했습니다.