희소 자동 인코더(SAE)를 활용하여 텍스트 기반 LLM의 내부 메커니즘을 해석하는 연구가 진행되었지만, 자동 음성 인식(ASR) 모델에 적용된 연구는 부족했습니다.
본 연구에서는 Whisper라는 Transformer 기반 ASR 모델에 SAE를 적용하여 프레임 레벨 임베딩을 추출하고, 언어 및 비언어적 경계를 넘나드는 다양한 단일 의미 특징을 발견했습니다.
연구 결과, SAE 모델의 적용 가능성을 입증하고 Whisper가 풍부한 언어 정보를 인코딩하고 있음을 확인했습니다.