연구진은 희소 오토인코더(SAE)의 기능 품질과 안정성을 향상시키는 'Aligned Training'이라는 새로운 방법을 제안했어요. 이 방법은 SAE 학습 시 인코더와 디코더 방향의 내적을 1로 맞추는 기하학적 제약 조건을 적용하여 작동해요.
기존 SAE의 문제점인 비활성화된 기능(dead feature)을 제거하고, 재구성 품질을 개선하며, 학습 과정의 안정성을 높이는 효과를 보여줘요. 새로운 파라미터 추가 없이 기존 SAE 벤치마크에서 Pareto 개선을 달성했어요.
Top/BatchTop-K 아키텍처나 p-Annealing 같은 기계적 해석 기법과도 쉽게 통합될 수 있으며, 계산 복잡성이나 비용을 증가시키지 않으면서 SAE의 기능 품질과 안정성을 크게 향상시켜요.