연구진은 희소 오토인코더(SAE) 특징의 상위 활성화 토큰 목록이나 디코더 가중치 벡터만으로는 파악하기 어려운 고차원 공존 구조를 분석하기 위해 토큰 공존 그래프를 활용했습니다.
새로운 방법은 Weisfeiler-Lehman(WL) 스타일 그래프 커널을 사용하여 구조적 공간에서 특징 간 유사성을 측정하며, GPT-2 Small 모델의 특징에 적용했을 때 구두점 패턴, 언어/스크립트 클러스터, 코드 템플릿과 같은 모티프 패밀리를 발견했습니다.
토큰 히스토그램 기준선보다 순도가 낮지만, 그래프 뷰는 토큰 빈도와 디코더 가중치만으로는 파악할 수 없는 구조적 관계를 드러내는 보완적인 정보를 제공합니다.