새로운 연구에서 '은밀한 조종'이라는 기술을 소개하며, 기존 연구보다 복잡한 다단어 편향을 학습 모델에 전달할 수 있음을 보여줬어요. 선생 모델의 편향이 인코딩된 조종 벡터가 학습 모델의 특정 레이어에 집중된다는 메커니즘적 증거를 제시했어요. 은밀하게 편향된 데이터셋에 대한 새로운 조종 벡터를 학습했을 때, 원래 벡터와 높은 유사성을 보이는 놀라운 정밀도를 확인했어요.