연구진이 빠르게 변화하는 온라인 환경에서 오정보 탐지 모델의 신뢰성을 측정하기 위한 새로운 벤치마크 CommunityFact를 공개했어요.
CommunityFact는 5개 언어, 2개 도메인에 걸쳐 15,992개의 독립적인 주장을 포함하며, 웹 검색 기능을 활용한 LLM 평가 결과, 기존 방식보다 성능이 향상됐어요.
연구 결과, LLM의 정보 출처 선택 정책이 인간 검수원의 합의와 일치하지 않는다는 점이 확인됐으며, 정보 검색 확장 또는 제거를 통해 이 격차를 줄일 수 있어요.