연구진은 LLM 환각 분류 체계의 한계를 지적하며, 오류의 유형 대신 오류를 감지할 수 있는 불확실성 측정기의 신호에 따른 새로운 분류 체계 'DECK'를 제안했어요.
DECK 체계는 샘플 간 일관성과 토큰 수준 신뢰도를 기준으로 4가지 행동 양식(Drift, Entrenched, Confabulation, Knotted)으로 분류하며, 각 양식은 특정 측정기 패밀리가 감지할 수 있어요.
3개 모델과 4개 데이터셋에서 실험 결과, 외부 레이블이 예측된 DECK 셀에 정확히 위치하고, 모델 규모 및 콘텐츠에 따른 세부 분류가 가능함을 확인했어요.
지식 부족 입력에 대한 LLM의 자신감 있는 반복적인 환각은 모든 출력 수준 불확실성 측정기가 감지하지 못하는 보편적인 맹점이며, 이는 활성화 수준에서도 나타나는 초기 증거를 제시했어요.