Pulse · AI 뉴스

제동 장치를 깨뜨려라, 바퀴를 깨뜨리지 마라: 엔트로피 최대화를 통한 비타겟 탈옥

arXiv cs.CV · 2026-05-12

연구진은 시각-언어 모델(VLM)에 대한 그래디언트 기반의 범용 이미지 탈옥이 모델 간에 잘 전달되지 않는다는 결론을 재검토했습니다. 비타겟 공격 모델에서 UJEM-KL이라는 새로운 공격 기법을 제안하여 거부 결과를 뒤집었습니다. 세 개의 VLM과 두 가지 안전성 벤치마크에서 UJEM-KL은 경쟁력 있는 화이트박스 공격 성공률을 달성했습니다.

##VLM##탈옥##엔트로피##UJEM-KL
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기