대규모 언어 모델(LLM)은 괄목할 만한 성공을 거두었지만, 악의적인 프롬프트를 통해 유해하거나 정책 위반적인 출력을 생성하도록 유도하는 탈옥 공격에 취약합니다. 이러한 공격은 안전, 신뢰, 규정 준수를 저해할 수 있습니다.
기존 평가 방식은 공격 성공률과 같은 좁은 지표에 의존하여 LLM 보안의 다면적인 특성을 제대로 반영하지 못합니다.
본 연구에서는 탈옥 공격 및 방어 기법에 대한 체계적인 분류를 제시하고, 이를 종합적으로 평가할 수 있는 다차원 프레임워크인 Security Cube를 소개합니다.