Pulse · AI 뉴스

XL-SafetyBench: 다국어 LLM 안전성 및 문화적 민감성 벤치마크

XL-SafetyBench · 2026-05-07

연구팀은 영어 중심의 기존 LLM 안전성 벤치마크의 한계를 지적하며, 국가별 특성을 반영한 XL-SafetyBench를 새롭게 공개했어요.

XL-SafetyBench는 10개국-언어 쌍의 5,500개 테스트 케이스로 구성되어 있으며, jailbreak 공격과 문화적 민감성을 평가하는 벤치마크를 포함하고 있어요.

연구 결과, frontier 모델은 jailbreak 강건성과 문화적 인식 간 연관성이 낮고, local 모델은 안전성과 생성 실패 간의 상관관계가 높게 나타났어요.

##LLM##안전성##다국어

매일 핵심 AI 소식을 한국어로, 빠르게