Pulse · AI 뉴스

언어 전환 트리거, 언어 모델 내부의 잠재적 경로를 거쳐 이동

arXiv cs.CL · 2026-05-19

연구진은 80억 파라미터 언어 모델에서 발견된 언어 전환 백도어 공격의 작동 원리를 분석했어요. 라틴어 3단어 트리거가 영어 출력을 프랑스어로 전환하는 회로를 세 단계로 분해했어요. 이 회로는 모델의 자연스러운 언어 식별 방향과 직교하는 잠재 공간을 통해 신호를 전달하는 방식으로 작동해요.

트리거 회로의 병목 지점을 교란하면 백도어를 완화할 수 있지만 모델의 성능에도 영향을 미쳐요.

##백도어##언어모델##보안##잠재공간##인공지능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기