연구진은 GPU 없이도 실행 가능한 경량 할루시네이션 감지 방법의 성능을 체계적으로 벤치마크했어요.
ROUGE-L, 의미 유사도, BERTScore, NLI 감지기, 앙상블 등 5가지 방법을 QA, 대화, 요약 작업에 적용해 평가했어요.
QA에서는 앙상블이 가장 좋은 성능(F1=0.792, AUC-ROC=0.873)을 보였지만, 요약 작업에서는 모든 방법이 성능이 저하됐어요.
본 연구는 GPU 자원이 제한적인 환경에서 할루시네이션 감지 방법을 선택하는 데 실질적인 지침을 제공하며, 모든 실험은 일반 노트북 CPU에서 공개 모델을 사용했어요.