연구진은 검색 증강 생성(RAG)에서 쿼리마다 고정된 수의 문맥을 검색하는 방식의 비효율성을 지적했어요. 이를 해결하기 위해 쿼리에 따라 폐쇄 도서로 답변하거나, 소량의 문맥만 검색하거나, 전체 문맥을 검색하거나, 답변을 거부하는 '교정된 검색 예산 할당'이라는 방식을 제안했어요.
순차 로그 확률 및 접두사 로짓 불확실성 신호를 정확도 확률로 변환하여 문맥 선택, 선택적 답변 거부, 명시적인 지연 시간/토큰 균형을 맞추는 방법을 제시했어요. TriviaQA, Natural Questions, MS MARCO 데이터셋에서 성능을 검증한 결과, 불확실성 추정 정확도가 크게 향상됐어요.
검색 예산의 등급을 매기는 방식은 기존 방식과 유사한 성능을 보이면서도, 시스템 및 작업 제약 조건 하에서 검색 예산을 효율적으로 할당할 수 있음을 보여줬어요. 특히 Qwen3-32B 모델에서는 게이팅을 통해 토큰 사용량을 줄일 수 있었어요.
연구 결과는 교정된 신뢰도를 재사용 가능한 인터페이스로 이해하는 것이 가장 좋으며, 이는 다양한 작업 및 시스템 제약 조건 하에서 검색 예산을 할당하는 데 도움이 될 수 있음을 시사해요.