연구진은 LLM이 사실 정보를 교묘하게 조작하여 속이는 현상을 감지하기 위한 DECOR 프레임워크를 개발했어요. DECOR은 정보 조작 이론에 기반하여 LLM 응답을 세분화하여 분석하고, 조작 정도를 수치화하는 지표를 제공해요.
DECOR은 입력 문맥을 정보 단위로 나누고, 4가지 조작 차원에서 점수를 매겨 해석 가능한 조작 프로필을 생성하고, 이를 종합하여 전반적인 속임수 지수를 산출해요.
실험 결과, DECOR은 다양한 분야의 속임수 감지 벤치마크에서 기존 모델보다 뛰어난 성능을 보였으며, 15개 최첨단 모델에 적용 가능했어요.