최근 연구에서 대규모 언어 모델이 탈옥에 취약하다는 점이 확인되었어요. 기존의 안전 교육 방식은 사용자의 의도를 평가하는 데 어려움이 있어 취약점을 드러내고, 모델을 무능하게 만들 수 있어요.
GPT-5와 같은 최전선 모델은 거부 기반 안전 장치에서 안전한 완결성으로 전환했지만, 사용자가 선의의 의도를 가장하여 악의적인 행동을 유도할 수 있다는 점이 발견되었어요.
연구진은 다중 턴 대화에서 의도를 속이는 새로운 탈옥 방법을 개발하여 GPT-5-thinking 및 Claude-Sonnet-4.5 모델에서 높은 성공률을 기록하고, 새로운 파라-탈옥 취약점을 발견했어요.