연구진은 계층 구조 이해를 요구하는 작업에 대한 트랜스포머의 표현 방식이 잔차 스트림의 기하학적 구조와 스택 형태의 어텐션 패턴으로 나타나는 것을 확인했어요.
Dyck 언어(균형 잡힌 괄호 시퀀스의 형식 언어)를 사용하여 잔차 스트림과 어텐션 패턴을 조사한 결과, 깊이, 거리, 스택 최상위 신호는 모두 디코더 가능하지만 인과적 역할은 다르다는 것을 발견했어요.
스택 최상위 위치에 대한 어텐션을 마스킹하면 장거리 정확도가 크게 떨어지는 반면, 저차원 잔차 스트림 서브스페이스를 제거하면 영향이 미미하여 디코더 가능성만으로는 인과적 사용을 보장할 수 없다는 것을 시사해요.