연구진은 모델 크기보다 어텐션 아키텍처가 회로 분석에 더 큰 영향을 미친다는 사실을 밝혔어요. Pythia와 Qwen2.5 모델을 분석한 결과, 그룹화된 쿼리 어텐션이 표준 멀티헤드 어텐션보다 회로를 더 집중적이고 안정적으로 만들었어요. 사실 기반 회상은 특정 규모 이상에서 병목 현상으로 좁혀지는 이산적인 단계적 변화를 겪는다는 사실도 확인했어요.
그룹화된 쿼리 어텐션은 표준 멀티헤드 어텐션보다 회로를 더 집중적이고 안정적으로 만들고, 이는 간접 목적어 식별, 유도 헤드, 사실 기반 회상 등 다양한 회로 유형에서 나타났습니다. Qwen2.5 모델 내에서 사실 기반 회상은 특정 규모를 초과하면 단일 병목 현상으로 좁혀지는 이산적인 단계적 변화를 겪습니다.
이 연구는 일부 아키텍처 선택이 모델 연구를 더 용이하게 하며, 해석 가능성 어려움이 모델 크기의 고정된 결과가 아니라는 점을 시사합니다.