Pulse · AI 뉴스

시각-언어 사전 훈련 모델의 적대적 전이성 향상: 대체 모델 특이적 편향 교정

DeBias-Attack · 2026-06-09

연구진이 시각-언어 사전 훈련(VLP) 모델의 적대적 공격 시 대체 모델에 과도하게 의존하는 현상(대체 모델 특이적 편향)을 지적했어요.

DeBias-Attack은 이 편향을 교정하기 위해 원본 이미지와 의미가 약한 이미지 두 가지 분기를 활용하여 적대적 최적화를 수행해요.

DeBias-Attack은 원본 이미지 분기를 통해 이미지-텍스트 정렬을 방해하고, 의미가 약한 이미지 분기는 대체 모델의 특이적 편향을 추정하는 역할을 해요.

실험 결과, DeBias-Attack은 다양한 VLP 모델과 다운스트림 작업에서 뛰어난 성능을 보여주며, 오픈소스 및 폐쇄형 멀티모달 대규모 언어 모델에서도 효과적이었어요.

##VLP##적대적공격##편향교정##멀티모달

매일 핵심 AI 소식을 한국어로, 빠르게