연구진은 선형 활성화 조향 방식의 한계를 극복하기 위한 구형 조향 패러다임을 재검토했어요. 7개 언어 모델을 분석한 결과, 개념은 주로 각도 구조에 의해 표현되며, 노름은 조향의 안정성과 후속 효과에 중요한 역할을 한다는 사실을 밝혀냈어요. 연구 결과는 개념 수준의 효과가 유사하더라도 개입 방식에 따라 결과가 달라지는 이유를 설명하고, 각도와 노름 구성 요소를 분리하여 활성화 조향을 매개변수화해야 함을 제안해요.
연구진은 토큰의 개념 방향과의 각도 정렬을 변경하고, 은닉 상태 노름을 변경하는 두 가지 기하학적 효과를 분석했어요. 기존 연구는 은닉 상태 노름이 개념 관련 정보를 담고 있지 않다고 가정했지만, 이번 연구는 그렇지 않다는 것을 보여줬어요.
이번 연구는 활성화 조향을 단일 가법 계수로 매개변수화하는 대신, 해석 가능한 각도 및 노름 구성 요소로 매개변수화해야 함을 시사하며, 이는 기존 방식의 한계를 극복하는 데 도움이 될 수 있어요.