연구진이 시각-언어 사전 훈련(VLP) 모델의 적대적 공격 시 대체 모델에 과도하게 의존하는 현상(대체 모델 특이적 편향)을 지적했어요.
DeBias-Attack은 이 편향을 교정하기 위해 원본 이미지와 의미가 약한 이미지 두 가지 분기를 활용하여 적대적 최적화를 수행해요.
DeBias-Attack은 원본 이미지 분기를 통해 이미지-텍스트 정렬을 방해하고, 의미가 약한 이미지 분기는 대체 모델의 특이적 편향을 추정하는 역할을 해요.
실험 결과, DeBias-Attack은 다양한 VLP 모델과 다운스트림 작업에서 뛰어난 성능을 보여주며, 오픈소스 및 폐쇄형 멀티모달 대규모 언어 모델에서도 효과적이었어요.