연구진은 최신 신경망 아키텍처에서 암호학적으로 탐지 불가능한 백도어 공격 메커니즘을 구축했습니다. 이 공격은 모델의 잠재 공간 내의 학습된 방향을 백도어 채널로 식별합니다. 백도어 채널이 자연적으로 학습된 방향과 통계적으로 구별 불가능하다면 공격자는 네트워크가 이미 가지고 있는 기하학적 특성을 활용할 수 있습니다.
ResNet 및 Vision Transformer 아키텍처에 대한 실험 결과, 공격은 높은 성공률을 보였으며, 클린 정확도가 크게 저하되지 않았고, 다양한 방어 기법을 회피했습니다.
연구 결과는 백도어가 이국적인 아키텍처나 인공적인 구조가 필요하지 않으며, 학습된 표현의 기하학적 특성으로 식별될 수 있음을 보여줍니다.