연구진은 활성화 함수와 손실 함수의 상호작용으로 인해 발생하는 가중치 드리프트 현상을 분석했어요. MSE 또는 교차 엔트로피 손실 함수에서는 초기화 시 양의 사전 활성화에 대한 기울기가 예상치 못하게 0보다 크다는 것을 증명했어요.
이 드리프트는 데이터가 아닌 최적화 과정에서 비롯되며, 다양한 아키텍처(MLP, ResNet, ViT, GPT-nano, MP-SENe)와 비대칭 활성화 함수(ReLU, GELU, SiLU)에서도 나타나는 것으로 확인됐어요.
ReLU와 결합된 가중치 드리프트는 GPT-nano에서 최대 90%에 달하는 활성화 희소성을 유발하며, clipped ReLU^2는 GELU^2보다 검증 손실이 낮아 성능이 우수했어요.