연구진은 시각-언어 모델(VLM)에 대한 그래디언트 기반의 범용 이미지 탈옥이 모델 간에 잘 전달되지 않는다는 결론을 재검토했습니다. 비타겟 공격 모델에서 UJEM-KL이라는 새로운 공격 기법을 제안하여 거부 결과를 뒤집었습니다. 세 개의 VLM과 두 가지 안전성 벤치마크에서 UJEM-KL은 경쟁력 있는 화이트박스 공격 성공률을 달성했습니다.