연구진은 긴 문서 RAG에서 검색 단위의 크기가 성능에 미치는 영향을 분석했어요. 기존 방식의 문제점을 해결하기 위해 훈련 없이 다중 입자 RAG(UMG-RAG) 프레임워크를 제안했어요. UMG-RAG은 기존의 밀집 및 희소 검색기를 활용하여 여러 입자 크기에서 상호 보완적인 역할을 수행하며, 불확실성을 기반으로 증거를 융합해요.
UMG-RAG은 각 입자 크기의 신뢰도를 추정하고, 쿼리별 의미론적, 어휘적, 입자 크기 신뢰도를 고려하여 후보 증거를 융합해요. 또한, 관련 증거를 찾기 위해 미세 입자를 활용하고, 지역적 일관성을 위해 더 넓은 범위의 부모 입자를 반환하는 부모 승진 변형(UMGP-RAG)을 도입했어요.
질의응답 벤치마크 실험 결과, 불확실성 기반 융합과 부모 승진은 생성 품질을 향상시키면서도 가벼운 플러그 앤 플레이 검색 파이프라인을 유지하는 것으로 나타났어요.