연구팀은 영어 중심의 기존 LLM 안전성 벤치마크의 한계를 지적하며, 국가별 특성을 반영한 XL-SafetyBench를 새롭게 공개했어요.
XL-SafetyBench는 10개국-언어 쌍의 5,500개 테스트 케이스로 구성되어 있으며, jailbreak 공격과 문화적 민감성을 평가하는 벤치마크를 포함하고 있어요.
연구 결과, frontier 모델은 jailbreak 강건성과 문화적 인식 간 연관성이 낮고, local 모델은 안전성과 생성 실패 간의 상관관계가 높게 나타났어요.