본 연구는 트랜스포머 모델이 카운터 언어를 처리할 때 스택 구조가 중요한 역할을 한다는 것을 밝혀냈습니다. 이전 연구에서 트랜스포머가 다음 토큰 예측을 통해 카운터 언어를 학습할 때 스택 구조와 일관된 표현을 학습한다는 사실이 밝혀졌습니다. 본 연구는 이러한 표현이 모델 성능에 미치는 인과적 영향을 조사했습니다.
선형 프로브를 사용하여 모델의 숨겨진 상태에서 각 토큰의 스택 깊이를 예측하고, 주요 표현 방향을 추출했습니다. 이 방향을 모델에서 제거하면 순차적 정확도가 거의 0%로 떨어지며, 스택 표현이 단순히 학습되는 것이 아니라 모델 성능에 필수적이라는 강력한 증거를 제시합니다.
본 연구는 트랜스포머 모델의 작동 방식을 이해하는 데 중요한 통찰력을 제공하며, 앞으로 모델 설계 및 개선에 활용될 수 있을 것으로 기대됩니다.