연구진은 LLM이 생성 텍스트에 자기 인식 신호를 내재적으로 포함하고 있음을 입증했어요. 무작위 희소 벡터로 내부 잔차 스트림을 조향하여 LLM을 식별할 수 있는 지문을 생성하는 방법을 제시했어요. 이 신호는 LLM 검출기의 활성화에서 복구 가능하며, 텍스트 품질 저하 없이 여러 검출 설정에서 98% 이상의 정확도를 달성했어요.
LLM 자기 인식 능력은 저엔트로피 시나리오에서도 신뢰성이 있으며, 의도적인 개입을 통해 증폭될 수 있음을 확인했어요. 이는 AI 생성 콘텐츠의 급증에 대응하여 기존 검출기의 실용적인 대안을 제공할 수 있어요.
연구는 LLM의 활성화 공간에 착취 가능한 구조가 존재하며, 의미적 간섭 없이 신호를 인코딩할 수 있음을 보여줘요.