09Catho 사용자가 GPT-2의 토큰 생성 과정에서 활성화되는 개념을 시각화하는 'AXON' 도구를 개발했어요. SAE(Sparse Autoencoder)를 활용해 유럽 지리, 수도, 프랑스어 등 인간이 이해할 수 있는 특징으로 분해하여 3D 그래프로 표시합니다. 'The capital of France is' 입력 시, 'Paris' 생성 전에 관련 특징들이 활성화되는 과정을 실시간으로 관찰할 수 있습니다.
TransformerLens, SAELens, FastAPI, Three.js 등을 활용했으며, CPU에서는 약 800ms/토큰, GPU에서는 약 35ms/토큰으로 작동합니다. Neuronpedia API를 통해 레이블을 가져오고 로컬에 캐싱합니다.
GPT-2 medium/large/xl, Pythia, Gemma-2-2B 등 다양한 모델을 지원하며, SAE가 있는 경우 사용 가능합니다. SAE의 코액티베이션 에지가 의미 있는지 여부에 대한 피드백을 환영합니다.