연구진은 LLM의 미지 백도어를 제거하는 새로운 방법인 '더미 백도어' 기법을 제안했어요. 서로 다른 백도어 공격이 모델 내부 활성화에 유사한 변화를 일으킨다는 점에 착안했어요.
더미 백도어를 의도적으로 삽입하고, 더미 트리거 입력과 함께 깨끗한 응답으로 추가 튜닝하여 제거하는 방식이에요. 미지 백도어와 더미 백도어가 공유하는 내부 메커니즘을 활용하는 거죠.
실험 결과, 더미 백도어 제거 방법은 미지 백도어 공격 성공률을 크게 줄이고 모델 성능을 유지하며 기존 방어 방법보다 효과적이었어요.