연구진은 LLM의 안전 장치를 우회하는 레드팀 공격을 위한 새로운 전략 'ContextualJailbreak'을 개발했어요. 이 전략은 대화 프라이밍을 통해 LLM을 조작하며, 기존 방식보다 훨씬 높은 성공률을 보여요.
ContextualJailbreak는 5가지 변이 연산자를 활용하여 대화 프라이밍을 진화시키고, 0~5점의 해악 점수를 활용하여 부분적으로 유해한 응답도 탐색 과정에 반영해요.
gpt-oss:120B 모델에 대한 공격은 GPT-4o-mini, Gemini 3 Flash 모델에서도 효과를 보였지만, Claude Opus 4.7과 Claude Sonnet 4.6 모델에서는 낮은 성공률을 기록하며, 모델 제공업체 간의 안전성 차이를 보여줬어요.