연구진은 LLM의 환각 현상을 평가하고 완화하기 위한 종합 벤치마크 HalluScan을 발표했어요. HalluScan은 6가지 탐지 방법, 4가지 오픈 웨이트 모델 패밀리, 3가지 도메인을 포함한 72가지 설정을 평가합니다. 연구 결과, NLI Verification이 가장 높은 AUROC 0.88을 달성했고, RAV는 0.66의 AUROC를 기록했습니다.