연구진은 언어 모델의 동작을 이해하고 제어하기 위해 해석 가능한 방향을 찾는 것이 중요하다고 강조했어요. 기존의 희소 오토인코더(SAE) 방식은 학습 및 평가에 많은 자원이 필요하다는 한계가 있었어요. ICA Lens는 SAE 학습 없이도 언어 모델 표현의 기하학적 구조에서 해석 가능한 구조를 발견할 수 있음을 보여줘요.
ICA Lens는 언어 모델 표현의 비정규 가우시안 방향을 찾는 독립 성분 분석(ICA) 기법을 활용하며, GPT-2 Small, Gemma 2 2B, Qwen 3.5 2B Base 모델에서 인간이 해석 가능한 방향을 효율적으로 찾아냈어요. SAEBench 벤치마크에서 제한된 예산 내에서 SAE와 경쟁력 있는 성능을 보였어요.
연구 결과는 ICA가 약한 기준선이 아닌, 언어 모델 표현을 탐색하기 위한 효율적이고 보완적인 첫 번째 도구로 활용될 수 있음을 시사하며, 언어 모델 해석 연구에 새로운 가능성을 제시해요.