연구진은 GPT-J 모델을 활용해 위치 기반 추론과 심볼릭 추론 두 가지 구조적으로 동일한 멀티홉 추론 작업의 어텐션 헤드 학습 역학을 분석했어요.
성공적인 학습은 특정 프롬프트에 대해 위치 또는 심볼릭으로 표현되는 순수한 헤드의 출현과 연관되어 있으며, 두 작업은 서로 다른 메커니즘적 요구 사항을 가지고 있어요 (숫자 작업은 위치 및 심볼릭 헤드, 문자 작업은 심볼릭 헤드만 필요).
RoPE 기반 어텐션의 기하학적 해석을 통해 단일 레이어 어텐션이 이러한 기능을 구현하는 방식을 설명하고, 심볼릭 메커니즘이 위치 기반 메커니즘보다 더 안정적으로 긴 시퀀스에 외삽된다는 예측을 검증했어요.