Pulse · AI 뉴스

강력한 트리거가 오히려 효과를 내는 역설: 고차원 백도어 공격 이론

arXiv cs.LG · 2026-05-21

연구진이 고차원 공간에서 백도어 공격의 역설적인 현상을 밝혀냈습니다. 강력한 학습 트리거가 오히려 방어자에게 도움이 될 수 있다는 사실이 확인됐습니다. 이 연구는 데이터의 공분산 최소 고유 벡터가 가장 파괴적인 트리거 방향이라는 것을 밝혀냈습니다.

청정 테스트 정확도는 학습 트리거 강도($α$)가 증가함에 따라 증가하며, 공격 성공률은 특정 $α$ 값에서 최고조를 이루고 감소하는 현상이 관찰됐습니다. 이는 기존의 $n ext{ >> } p$ 분석으로는 파악할 수 없는 유한 샘플 노이즈 플로어 때문입니다.

CIFAR-10 및 가우시안 대체 데이터에 대한 실험 결과가 이론과 일치하며, ResNet-18 실험에서도 이러한 현상이 나타났습니다.

##백도어공격##머신러닝보안##고차원분석##AI보안

매일 핵심 AI 소식을 한국어로, 빠르게