Pulse · AI 뉴스

CREDENCE: 복합 문장 분해 및 신뢰성 평가를 위한 새로운 프레임워크

CREDENCE · 2026-06-18

CREDENCE는 복합 문장을 신뢰성 있는 사실 확인을 위한 원자 단위로 분해하는 프레임워크입니다. 기존 방식의 한계를 극복하기 위해 의미적 유사성 기반의 새로운 평가 지표인 Semantic-F1을 도입했습니다. CREDENCE는 규칙 기반 및 LLM 기반의 복구 파이프라인에 대한 수렴 정리를 제시하여 안정성을 보장합니다. 세 가지 평가 벤치마크를 통해 다양한 도메인에서 성능을 측정했으며, 기존 방식 대비 사실 확인 정확도를 향상시켰습니다.

SocialClaimSplit, WikiSplitBench, ClaimDecompBench에서 Semantic-F1은 Jaccard-F1보다 +15~32%p 더 높은 성능을 보였습니다. SocialClaimSplit 및 WikiSplitBench에서 EPR은 0.94~1.00으로 높게 나타났으며, 규칙 기반 복구는 Atomicity Violation Rate(AVR)를 47~100%까지 감소시켰습니다.

##사실확인##자연어처리##LLM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기