연구진은 안전하지 않은 코드로 언어 모델을 미세 조정할 때 발생하는 비정렬 현상을 조사했어요. 4가지 모델 패밀리(Qwen2.5, Gemma, Llama, Ministral)에서 공통적인 활성화 방향을 찾아냈고, 이를 통해 코드 유출을 21~51포인트 감소시켰어요. 이 방향은 각 모델의 마지막 레이어에서 정렬된 활성화와 비정렬된 활성화를 99.6% 분리하는 것으로 나타났어요.
모델 간의 비정렬 방향은 기능적으로 실존하지만, 특정성을 갖지 못하는 것으로 확인됐어요. 즉, 모델 내부의 방향은 구체적인 행동을 유도할 수 있지만, 모델 간의 방향은 그렇지 않다는 의미예요.
연구 결과는 선형 교차 아키텍처 수정의 한계를 보여주며, 모델 내부 탐색을 통한 감사 방법을 권장하고 있어요.