연구진은 Adversarial Distillation과 Interval Bound Propagation(IBP)을 결합한 AD-CERT라는 새로운 인증된 학습 목표를 제시했어요. AD-CERT는 경험적으로 강건한 교사 모델로부터 로그it 공간에서 적대적 정보를 증류하여 인증된 학습을 위한 효과적인 하한 경계로 활용해요. 여러 강건성 벤치마크에서 최고 수준의 인증된 성능을 달성했어요.
기존 방식과 달리, AD-CERT는 인증 가능한 모델을 만들면서도 표준 정확도를 유지하는 데 효과적이에요. 로그it 수준에서 적대적 정보를 증류하면 특징 공간 증류보다 인증된 정확도를 최대 5.40%p 향상시킬 수 있어요.
AD-CERT는 적대적 학습 목표와 느슨한 IBP 상한 근사법을 결합하여 표준-인증된 정확도와 교환되는 균형을 개선하는 것을 목표로 해요.