SURE-RAG는 답변 검증을 위한 증거의 충분성을 판단하는 새로운 프레임워크입니다. 질문, 답변, 검색된 증거가 주어지면 증거가 답변을 뒷받침하는지, 반박하는지, 아니면 불충분한지를 예측하고, 증거가 충분하지 않으면 판단을 보류합니다.
HotpotQA-RAG v3 벤치마크에서 SURE-RAG는 0.9075의 Macro-F1을 달성하여 DeBERTa 평균 풀링(0.6516) 및 GPT-4o 판사(0.7284)를 능가했습니다.
SURE-RAG는 증거의 충분성이 집합 수준의 속성이라는 관찰을 바탕으로 구축되었으며, 37%의 안전하지 않은 답변 감소를 보여줍니다.