CREDENCE는 복합 문장을 신뢰성 있는 사실 확인을 위한 원자 단위로 분해하는 프레임워크입니다. 기존 방식의 한계를 극복하기 위해 의미적 유사성 기반의 새로운 평가 지표인 Semantic-F1을 도입했습니다. CREDENCE는 규칙 기반 및 LLM 기반의 복구 파이프라인에 대한 수렴 정리를 제시하여 안정성을 보장합니다. 세 가지 평가 벤치마크를 통해 다양한 도메인에서 성능을 측정했으며, 기존 방식 대비 사실 확인 정확도를 향상시켰습니다.
SocialClaimSplit, WikiSplitBench, ClaimDecompBench에서 Semantic-F1은 Jaccard-F1보다 +15~32%p 더 높은 성능을 보였습니다. SocialClaimSplit 및 WikiSplitBench에서 EPR은 0.94~1.00으로 높게 나타났으며, 규칙 기반 복구는 Atomicity Violation Rate(AVR)를 47~100%까지 감소시켰습니다.