대규모 언어 모델(LLM)의 안전 장치는 주로 영어 중심이며, 다국어 배포 시 체계적인 취약점을 야기합니다. 연구팀은 영어 제이루브렉 프롬프트를 기반으로 하는 의미론적 유사성 비교를 통해 언어별 재훈련이나 적응 없이 이러한 공격을 완화할 수 있는지 조사했어요. 선별된 벤치마크에서는 높은 분리 정확도를 보였지만, 실제 사용 환경과 유사한 다양한 데이터에서는 성능이 저하되는 것으로 나타났어요.