Pulse · AI 뉴스

정확도가 충실함이 아니다: 완전한 오라클을 활용한 커버리지 기반 생성 평가

HuggingFace Papers · 2026-06-08

연구진은 기존 faithfulness 측정 방식이 precision(정확성)만 평가하여 abstention(거부)을 장려한다는 문제점을 지적했어요. Formula 1 텔레메트리 및 NOAA 날씨 예보 데이터를 활용하여 recall(커버리지)을 측정할 수 있는 완전한 오라클 환경을 구축했어요. 실험 결과, 최첨단 모델은 관련 사실의 절반도 커버하지 못하며 F1 점수에서 최하위를 기록했어요.

모델이 커버리지를 개선하기 위해 명시적으로 요청해도 성능 향상은 미미했어요. 연구진은 faithfulness와 coverage를 결합한 새로운 평가 지표를 개발하고, reference 없이 precision과 recall을 개선하는 생성 방법론을 제시했어요. 연구 결과와 데이터셋, 평가 지표, baseline 모델, 데모를 공개했어요.

##faithfulnes##coverage##evaluation##LLM##groundedgeneration
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기