연구진은 희소 오토인코더(SAE)에서 많은 기능이 활성화되지 않는 '기능 사망' 현상을 분석했어요. GPT-2에서는 거의 없지만 AlphaFold3에서는 70%가 넘는 사망률을 보이며, 이는 차원 수준의 활성화 이상치가 원인이에요. 활성화 이상치는 초기화 시 각 기능과 활성화 평균의 정렬에 따라 사전 활성화를 이동시켜 기능 사망을 유발해요.
연구 결과, 이상치 심각도(γ)는 초기 사망률을 예측하는 데 유용하며, 454개의 모델-레이어 조합에서 높은 상관관계를 보였어요. 기능 사망은 훈련 중에 회복될 수 있지만, SAE 편향이 활성화 평균을 학습해야 하므로 이상치가 심할 경우 회복이 어렵습니다.
활성화 평균을 뺄셈하는 '평균 중심화'는 기능 사망을 방지하며, 이 방법이 필요한 이유를 명확히 보여줍니다.