본 연구에서는 적대적 훈련 시 의사 결정 경계 근처의 샘플에 대한 입력 교란 강도가 모델의 강건성에 미치는 영향이 미미하다는 새로운 현상을 밝혀냈어요.
입력 공간과 잠재 공간의 불일치가 정확성과 강건성 간의 균형을 맞추는 데 중요한 원인임을 지적하고, 이를 해결하기 위해 새로운 적대적 훈련 목표인 '강건한 정렬'을 정의했어요.
새로운 방법인 RAAT(Robust Alignment Adversarial Training)를 통해 여러 실험에서 기존 방법들을 능가하는 정확성과 강건성을 동시에 향상시키는 결과를 확인했어요.