연구진은 80억 파라미터 언어 모델에서 발견된 언어 전환 백도어 공격의 작동 원리를 분석했어요. 세 단어의 라틴어 트리거가 영어 출력을 프랑스어로 전환하는 회로를 세 단계로 분해했어요.
트리거 토큰은 초기 레이어의 어텐션 헤드에 의해 마지막 위치로 구성되고, 중간 레이어를 통해 모델의 자연 언어 식별 방향과 직교하는 부분 공간으로 신호가 전달돼요.
최종 레이어의 MLP는 이 잠재적 신호를 프랑스 로짓으로 변환하며, 이 회로의 병목 지점을 막으면 트리거를 완화할 수 있지만 모델의 능력도 저하돼요.