연구진은 기존 희소 오토인코더(SAE)가 모델 특징의 다차원 구조를 제대로 반영하지 못해 특징 분열을 유발한다는 것을 밝혀냈습니다.
서브스페이스 인식 희소 오토인코더(SASA)를 제안하여 단일 벡터 디코더를 학습된 디코더 서브스페이스로 대체하고 블록 희소성을 강제하며 각 그룹의 효과적인 순위를 조정했습니다.
SASA는 GPT-2와 Mistral-7B에서 특징 분열을 줄이고 단일 의미성을 개선하며 표준 SAE와 동등하거나 더 나은 성능을 보이면서도 약 절반의 토큰 예산으로 훈련할 수 있습니다.
SASA는 특징의 차원($d_i$)에 따라 샘플 복잡도를 다항식으로 줄여 LLM 순방향 패스의 비용을 고려할 때 결정적인 이점을 제공합니다.