연구진은 AI 시스템의 보안 취약점을 식별하고 평가하기 위한 개방형 프레임워크인 AVISE(AI Vulnerability Identification and Security Evaluation)를 소개했어요.
AVISE 프레임워크를 활용하여 Red Queen 공격을 강화하고, 언어 모델의 jailbreak 취약점을 발견하는 자동화된 보안 평가 테스트(SET)를 개발했어요.
개발된 SET는 92%의 정확도, 0.91의 F1-score, 0.83의 Matthews 상관 계수를 달성하며, 다양한 크기의 9개 언어 모델을 평가하여 모두 취약점을 확인했어요.