연구진은 CLIP과 같은 비전-언어 모델(VLM)이 적대적 공격에 취약하다는 점을 확인하고, 테스트 시간 방어 기법인 Directional Bias-guided Defense (DBD)를 제안했습니다.
DBD는 입력 변환 시 적대적 이미지의 특징 공간이 일관된 방향으로 이동하는 현상(Defense Direction)을 활용하여, 특징을 원래 클래스 중심으로 되돌리는 방식으로 작동합니다.
실험 결과 DBD는 기존 방어 기법보다 우수한 성능을 보였으며, 적대적 정확도가 클린 정확도보다 높게 나타나 적대적 공격이 의사 결정 경계에 대한 방향성 정보를 담고 있음을 시사했습니다.