연구진이 LLM의 환각 현상을 감지하는 새로운 방법인 Human-like Criteria Probing for Hallucination Detection (HCPD)를 제안했어요. HCPD는 인간 평가자의 다각적인 추론 방식을 모방하여 판단 기준을 분해하고, 각 기준별 점수를 종합하여 진실성 측정을 수행해요.
HCPD는 LLM 에이전트가 약한 의미 일관성 감독만으로 판단 기준을 가중치 조합으로 분해하는 reward-based alignment 방식을 사용해요. 이를 통해 모델이 판단 근거를 제시하도록 유도해요.
실험 결과, HCPD는 기존 방법보다 뛰어난 성능을 보였으며, 환각 현상 감지에 효과적이고 설명 가능한 솔루션을 제공하는 것으로 나타났어요.