연구진은 희소 오토인코더(SAE)의 기능 안정성을 분석하여, 훈련 과정에서 유사한 기능이 재현될 확률을 추정하는 방법을 제시했어요.
안정적인 기능은 대부분의 재구성 및 예측 관련 정보를 담고 있는 반면, 불안정한 기능은 표면적인 트리거에 의해 지배되며 예측에 미치는 영향은 미미해요.
불안정한 기능은 개별적으로 재현 불가능하지만, 공유된 활성화 공간 내에서 재현 가능한 저차원 부분 공간에 집중되어 있으며, 이를 통해 더 안정적인 SAE를 구축할 수 있어요.