연구진은 심층 신경망의 가중치 행렬이 기하학적 연속성을 보이는 현상에 대해 조사했습니다. 잔차 연결은 레이어 간 가중치 업데이트를 정렬하여 일관성을 만들고, 비선형성은 모든 레이어를 공유 좌표 프레임으로 제한하여 회전 드리프트를 방지합니다.
회전 보존 활성화는 연속성을 유지하지 못하며, 이는 비선형성이 아닌 대칭성 깨기가 핵심적인 역할을 한다는 것을 보여줍니다. 활성화는 주요 고유 방향에 연속성을 집중시키고, 정규화는 여러 방향으로 분산시킵니다.
트랜스포머 모델에서는 투영별로 연속성이 나타나며, Q, K, Gate, Up은 입력 공간 연속성을, O, Down은 출력 공간 연속성을 개발하고, V는 고유 방향 연속성만 나타냅니다.