연구진은 LLM에 대한 백도어 탐지 및 트리거 역전 프레임워크를 개발했어요. LLM 입력 공간의 이산성과 타겟 응답 토큰 블랙리스트 부재가 기존 방법의 한계였습니다.
CSO(Class Subspace Orthogonalization)를 활용하여 백도어 탐지 성능을 높이고, 토큰 임베딩 공간에서 연속 최적화를 수행하는 방식을 제안했어요.
개발된 방법은 다양한 LLM 아키텍처에서 높은 탐지 성능과 정확한 트리거 역전을 보여주며, 기존 방법의 한계를 극복했습니다.