연구진은 12개 언어에서 다국어 다중 모드 LLM(MLLM)의 적대적 강건성과 다중 모드 안전성을 평가했어요.
영어 중심 공격에 취약한 MLLM의 다국어 취약점을 확인했는데, 한 언어로 최적화된 적대적 이미지가 다른 언어에서도 실패를 유발하는 강력한 교차 언어 전이성을 보였어요.
유해한 지시가 텍스트로 입력될 때, 언어적 기반이 강한 언어에서 오용을 돕는 응답이 더 자주 나타났고, 이미지 내 텍스트는 영어 스크립트만 인식돼 안전이 착시 현상일 수 있어요.
Qwen3-VL과 같이 훈련 과정 전반에 걸쳐 다국어 능력을 구축한 MLLM은 언어 간 안전 거부 능력을 유지하며, 피상적인 번역된 지시 데이터로 미세 조정하면 안전 착시를 유발할 수 있어요.