Pulse · AI 뉴스

RAG 평가의 신뢰성 높이는 새로운 벤치마크 생성 파이프라인 SeedRG 공개

SeedRG · 2026-05-09

RAG 성능을 평가할 때 LLM이 이미 알고 있는 내용이 포함된 질문이 많아 평가 결과가 신뢰하기 어려워요. 이를 '지식 누수'라고 부르며, 벤치마크가 오래될수록 문제가 심각해져요.

SeedRG는 지식 누수를 줄이고 벤치마크 노화를 해결하는 새로운 벤치마크 생성 파이프라인으로, 기존 벤치마크를 기반으로 추론 그래프를 추출하고 유형 제약 엔티티 교체 방식으로 새로운 예제를 생성해요.

생성된 예제는 원래 추론 패턴을 유지하면서 모델의 파라미터 지식에 존재할 가능성이 낮고, 추론 그래프 일관성 검사 및 지식 누수 필터를 통해 품질을 보장해요.

##RAG##벤치마크##지식누수##SeedRG
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기