Pulse · AI 뉴스

언어와 모달리티가 감옥 탈출 공격 표면을 어떻게 재편하는가: 동일 모델, 다른 약점

Qwen Omni · 2026-05-22

연구진이 Claude Sonnet 4.5, GPT-5, Pixtral Large, Qwen Omni 등 4개 최첨단 MLLM의 감옥 탈출 취약점을 미국 영어(en-US)와 멕시코 스페인어(es-MX)로 비교하는 최초의 체계적인 다국어·다중 모드 레드 팀 연구를 진행했어요.

스페인어 프롬프팅 시 역할극과 같은 언어적 프레임 공격은 효과가 크게 줄어드는 반면, 시각적으로 명확한 다중 모드 공격은 더 효과적이라는 결과가 나왔으며, 이는 언어 인터페이스가 전반적인 평가관의 관대함이 아닌 작동 메커니즘을 시사해요.

안전성 평가 프레임워크가 언어와 모달리티를 독립적인 차원으로 취급하는 것은 전 세계적으로 배포되는 MLLM의 공격 표면을 근본적으로 잘못 지정하며, 이에 따라 재설계가 필요해요.

Qwen Omni는 es-MX 참가자들 사이에서 가장 취약한 모델로 부상했으며, 이는 영어 조건 점수를 스칼라 방식으로 수정할 수 없는 순위 반전 현상이에요.

##MLLM##감옥탈출##다국어##안전성##Qwen
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기