Sparse Autoencoders(SAE)는 LLM과 ViT의 내부 표현을 분석하는 데 중요한 도구로, 다의미 활성화를 희소한 단일 의미 특징 집합으로 분해하여 신경망 계산을 인간이 이해할 수 있는 개념으로 번역합니다.
연구진은 입력 복잡성에 따라 활성 특징(K) 수를 조절하는 Dynamic Top-K 선택 메커니즘을 갖춘 SoftSAE라는 새로운 희소 오토인코더를 제안했습니다.
실험 결과, SoftSAE는 의미 있는 특징을 찾을 뿐만 아니라 각 개념에 필요한 적절한 수의 특징을 선택하는 것으로 나타났으며, 소스 코드는 공개되었습니다.