연구진은 세 가지 10억 파라미터 언어 모델(Pythia 1B, OLMo 1B-0724-hf, OLMoE 1B-7B-0924)의 어텐션 회로 형성 과정을 추적했어요.
연구 결과, 모델마다 BOS(Beginning of Sequence) 어텐션 헤드 형성에 차이가 있었으며, DCLM 데이터셋 모델에서는 유도 회로 형성이 BOS 어텐션 헤드 형성보다 10~20배 앞서 나타났어요.
능력별 어텐션 회로 식별은 전체 학습 토큰의 0.3~2% 내에 완료되며, 최종 모델이 아니어도 회로 식별이 가능하다는 점이 확인됐어요.