Pulse · AI 뉴스

안정성 함정 넘어: 시각-언어 모델의 테스트 시간 적대적 방어 위한 고노이즈 드리프트 게이팅

CLIP · 2026-06-02

연구진이 시각-언어 모델(VLM)의 적대적 공격 방어에 새로운 접근법 '드리프트 게이팅'을 제시했어요. 기존 방식은 성능 저하를 야기했지만, 고노이즈 환경에서 적대적 표현이 불안정해지는 현상을 활용해 문제를 해결했어요.

드리프트 게이팅은 적대적 표현의 불안정성을 감지하는 신호로 활용해 기존 테스트 시간 방어를 보조하는 방식으로, 훈련 과정이 필요 없어요. 13개 데이터셋에서 클린 및 적대적 정확도를 모두 향상시켰어요.

ImageNet 데이터셋에서 클린+적대적 정확도가 56.1%에서 66.2%로 향상되는 효과를 보였으며, 이는 기존 방식보다 개선된 성능이에요. 이 방법은 CLIP 모델의 적대적 표현의 불안정성을 활용하는 새로운 시도예요.

##VLM##적대적공격##드리프트게이팅##CLIP

매일 핵심 AI 소식을 한국어로, 빠르게