검색 증강 생성(RAG)에서 청크 분할 방식이 불필요한 중복을 많이 만들어 비용을 높이고 검색 속도를 늦출 수 있어요. 이 연구에서는 의미, 주제, 개체명 기반 필터링 등 청크 필터링 전략을 통해 인덱스 크기를 줄이면서 검색 품질을 유지하는 방법을 살펴봤어요. 실험 결과, 개체명 기반 필터링은 벡터 인덱스 크기를 최대 36%까지 줄이면서도 검색 품질을 거의 그대로 유지했어요.