연구진은 언어 모델의 희소 피드 포워드 뉴런을 통해 거절 및 언어 라우팅과 같은 행동이 제어된다는 사실을 밝혀냈어요. 단일 뉴런 개입이 행동을 일관되게 제어하는지 여부를 예측하는 이론적 프레임워크를 개발했어요.
새로운 제어 창 프레임워크에 따르면, 특정 방향으로의 쓰기는 제어 좌표로 감소하며, 이는 잔류 스트림과 쓰기 간의 정렬에 의해 결정돼요. 이 좌표는 잔류 노름을 쓰기 노름으로 나눈 일관성 예산에 의해 설정된 보편적인 포화 곡선을 따라 움직여요.
행동 트리거가 붕괴 천장 아래에 있을 때 일관된 제어가 가능하며, 이 천장은 가중치와 일반적인 순방향 패스를 통해 결정돼요. 15개의 보류 중인 뉴런에서 예측된 천장의 평균 절대 오차는 0.14로, 벌크 레이어에서 약 0.07 정도예요.
연구 결과는 지역적인 기울기 속성이 제어를 반대 예측한다는 것을 설명하며, 진정한 제어기는 읽기 축에서 쓰기를 제거하고 1차 기울기가 거의 0인 상태를 유지해요.