Pulse · AI 뉴스

강화 학습, 그래디언트 기반 적대적 최적화 방해

강화 학습 · 2026-06-11

연구진이 강화 학습(RL)을 활용해 딥러닝 모델의 그래디언트 구조를 방해하는 방법을 연구했어요. 이미지 분류기를 정책 그래디언트 목표와 에필론-탐험 방식으로 학습시켜 공격자의 그래디언트 정보를 무력화하는 방식이에요.

CIFAR-10, CIFAR-100, ImageNet-100 데이터셋과 다양한 아키텍처에서 실험한 결과, RL 학습 분류기는 그래디언트 기반 적대적 최적화를 크게 방해하는 것으로 나타났어요.

분석 결과, RL은 손실 경관을 안정화하고 그래디언트 방향을 불안정하게 만들어 공격의 신뢰성을 떨어뜨리고, 각 PGD 단계의 크기를 제한하는 역할을 하는 것으로 확인됐어요.

RL과 적대적 학습(RL-adv)을 결합하면 그래디언트 정보 방해와 의사 결정 경계 강화라는 이중 방어 체계를 구축할 수 있으며, PGD, AutoAttack 등 다양한 공격에 대해 기존 적대적 학습(SL-adv)보다 훨씬 뛰어난 성능을 보였어요.

##강화학습##적대적공격##딥러닝##보안
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기