연구진은 LLM 안전성 평가를 위한 확장 가능하고 다양한 다중 턴 자이프릭 벤치마크인 MultiBreak를 발표했습니다. MultiBreak는 10,389개의 다중 턴 적대적 프롬프트를 포함하며, 2,665개의 다양한 악의적 의도를 포괄합니다. 실험 결과, MultiBreak는 DeepSeek-R1-7B 모델에서 54.0%, GPT-4.1-mini 모델에서 34.6% 더 높은 공격 성공률(ASR)을 달성했습니다.