연구진은 이미지 활용 추론 모델의 안전성 문제를 분석하여, 이미지 도구 상호작용이 탈 jailbreak 공격 성공률을 평균 30% 감소시킨다는 사실을 발견했습니다.
이미지 도구 상호작용의 안전성 향상 효과는 단순히 이미지 의미나 텍스트 기록 때문이 아니며, 이미지 도구 안전성 벡터 프레임워크로 설명될 수 있습니다.
연구 결과는 이미지 도구 상호작용이 탈 jailbreak 공격에 대한 유망한 설계 패턴임을 시사하며, 파이프라인별 안전성 평가의 중요성을 강조합니다.