연구진은 멀티모달 LLM(MLLM)의 시각적 적대적 공격 취약점을 분석했어요. CLIP 정렬 제약 없이도 강건한 시각 인코더를 통합하면 캡셔닝 CIDEr 점수 28점, VQA 정확도 11.7% 향상 가능해요. 표준 MLLM에 직접 적대적 학습을 적용하면 성능이 저하되므로 강건한 시각 표현이 필수적이에요. 테스트 시각적 스토캐스틱 변환을 통해 비강건 MLLM의 적대적 성능을 개선할 수 있어요.
CLIP 정렬 프로토콜을 통해 MLLM 학습 전에 강건한 시각 인코더를 예측하고, 대규모 멀티모달 적대적 사전 학습이 강건성 전달에 핵심적인 요소임을 밝혀냈어요. 강건한 시각 인코더를 MLLM에 통합하면 기존 방식보다 성능이 향상돼요. 연구 결과는 독성 콘텐츠 생성 감소에도 기여하는 것으로 나타났어요.
연구진은 강건한 시각 표현을 기반으로 MLLM을 학습하고, 추가적으로 1.9 CIDEr 점수와 4.3% VQA 정확도 향상을 달성했어요. 공개된 코드와 사전 학습된 가중치를 통해 연구 결과를 공유할 예정이에요.