연구진이 강화 학습(RL)을 활용해 딥러닝 모델의 그래디언트 구조를 방해하는 방법을 연구했어요. 이미지 분류기를 정책 그래디언트 목표와 에필론-탐험 방식으로 학습시켜 공격자의 그래디언트 정보를 무력화하는 방식이에요.
CIFAR-10, CIFAR-100, ImageNet-100 데이터셋과 다양한 아키텍처에서 실험한 결과, RL 학습 분류기는 그래디언트 기반 적대적 최적화를 크게 방해하는 것으로 나타났어요.
분석 결과, RL은 손실 경관을 안정화하고 그래디언트 방향을 불안정하게 만들어 공격의 신뢰성을 떨어뜨리고, 각 PGD 단계의 크기를 제한하는 역할을 하는 것으로 확인됐어요.
RL과 적대적 학습(RL-adv)을 결합하면 그래디언트 정보 방해와 의사 결정 경계 강화라는 이중 방어 체계를 구축할 수 있으며, PGD, AutoAttack 등 다양한 공격에 대해 기존 적대적 학습(SL-adv)보다 훨씬 뛰어난 성능을 보였어요.