연구진은 80억 파라미터 언어 모델에서 발견된 언어 전환 백도어 공격의 작동 원리를 분석했어요. 라틴어 3단어 트리거가 영어 출력을 프랑스어로 전환하는 회로를 세 단계로 분해했어요. 이 회로는 모델의 자연스러운 언어 식별 방향과 직교하는 잠재 공간을 통해 신호를 전달하는 방식으로 작동해요. 트리거 회로의 병목 지점을 교란하면 백도어를 완화할 수 있지만 모델의 성능에도 영향을 미쳐요.