연구진이 LLM의 안전 장치가 영어 중심 학습으로 인해 다국어 입력에 취약하다는 점을 발견했어요. STEER라는 새로운 공격 기법을 통해 모델의 거부 반응을 우회하며 유해한 답변을 얻을 수 있어요. STEER는 8B 파라미터 모델에서 최대 96.7%의 성공률을 기록하며 GPT-4o-mini에도 35.5%의 성공률을 보였어요.