Pulse · AI 뉴스

SURE-RAG: 답변 검증을 위한 증거의 충분성 및 불확실성 인지

SURE-RAG · 2026-05-05

SURE-RAG는 답변 검증을 위한 증거의 충분성을 판단하는 새로운 프레임워크입니다. 질문, 답변, 검색된 증거가 주어지면 증거가 답변을 뒷받침하는지, 반박하는지, 아니면 불충분한지를 예측하고, 증거가 충분하지 않으면 판단을 보류합니다.

HotpotQA-RAG v3 벤치마크에서 SURE-RAG는 0.9075의 Macro-F1을 달성하여 DeBERTa 평균 풀링(0.6516) 및 GPT-4o 판사(0.7284)를 능가했습니다.

SURE-RAG는 증거의 충분성이 집합 수준의 속성이라는 관찰을 바탕으로 구축되었으며, 37%의 안전하지 않은 답변 감소를 보여줍니다.

##RAG##검증##충분성##AI안전

매일 핵심 AI 소식을 한국어로, 빠르게