연구진이 Claude Sonnet 4.5, GPT-5, Pixtral Large, Qwen Omni 등 4개 최첨단 MLLM의 감옥 탈출 취약점을 미국 영어(en-US)와 멕시코 스페인어(es-MX)로 비교하는 최초의 체계적인 다국어·다중 모드 레드 팀 연구를 진행했어요.
스페인어 프롬프팅 시 역할극과 같은 언어적 프레임 공격은 효과가 크게 줄어드는 반면, 시각적으로 명확한 다중 모드 공격은 더 효과적이라는 결과가 나왔으며, 이는 언어 인터페이스가 전반적인 평가관의 관대함이 아닌 작동 메커니즘을 시사해요.
안전성 평가 프레임워크가 언어와 모달리티를 독립적인 차원으로 취급하는 것은 전 세계적으로 배포되는 MLLM의 공격 표면을 근본적으로 잘못 지정하며, 이에 따라 재설계가 필요해요.
Qwen Omni는 es-MX 참가자들 사이에서 가장 취약한 모델로 부상했으며, 이는 영어 조건 점수를 스칼라 방식으로 수정할 수 없는 순위 반전 현상이에요.