Pulse · AI 뉴스

LLM의 안전 장치, 다국어 입력에 취약: 새로운 공격 기법 STEER 공개

arXiv cs.CL · 2026-07-02

연구진이 LLM의 안전 장치가 영어 중심 학습으로 인해 다국어 입력에 취약하다는 점을 발견했어요. STEER라는 새로운 공격 기법을 통해 모델의 거부 반응을 우회하며 유해한 답변을 얻을 수 있어요. STEER는 8B 파라미터 모델에서 최대 96.7%의 성공률을 기록하며 GPT-4o-mini에도 35.5%의 성공률을 보였어요.

##LLM##안전##다국어##공격
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기