연구진은 Transformer 모델이 특정 작업에 필요한 관계를 어떻게 통합하는지 분석하기 위해 산술 문제를 활용했어요. 모델은 주어진 숫자 N, 밑수 B, 지수 D에 대해 B^D의 자릿수를 계산하는 방식으로 학습되었어요.
모델은 99.83%의 정확도로 숫자 밑수 교차 데이터셋에서 정확한 답을 찾아냈으며, 선형 프로브를 통해 중간 단계를 디코딩하여 단계별 산술 연산 가능성을 시사했어요.
인과적 테스트 결과, D 입력 스트림에서 출력 위치까지의 국소화된 경로에서 초기 D 선택적 통신에 의존하며, N과 B에 독립적인 행동을 보였고, 이는 프로브 기반 결론과 인과적 관찰 간의 차이를 보여줬어요.