연구진은 어텐션 헤드 회로를 발견하기 위해 코-액티베이션 통계를 활용하는 클러스터링 방법을 사용했어요. Pythia 1B, OLMo 1B, OLMoE-1B-7B 모델에서 클러스터링 후 아블레이션 테스트를 진행한 결과, 일부 모델에서 회로 제안 신호가 발견됐어요. 하지만 아블레이션 결과 손실이 개선되는 등 예상과 다른 결과가 나타나, 회로 제안 신호는 확정된 회로가 아님을 확인했어요.
어텐션 타겟 선택성과 참여 비율은 기능과 독립적으로 변화하며, 이는 회로 발견 과정에서 중요한 시사점을 제공해요. 연구는 저렴한 신호가 회로 제안일 뿐, 확정된 회로는 아니라는 점을 강조해요.
본 연구는 어텐션 헤드 회로를 발견하는 데 있어 클러스터링과 아블레이션 테스트의 중요성을 보여주며, 회로 발견 과정에 대한 이해를 높이는 데 기여할 것으로 기대돼요.