본 연구는 심층 트랜스포머 모델의 표현력을 제한 깊이 문법을 통해 분석합니다. 트랜스포머 모델은 계층적 표현을 형성하여 점진적으로 더 추상적이고 조립적인 특징을 포착하는 것으로 여겨집니다. 연구진은 문법 상태를 저차원, 선형 분리 가능한 부분 공간에 인코딩하는 구조적 능력을 보여줍니다.
이론적 결과는 선형 표현 가설을 뒷받침하며, 문법 깊이에 따라 선형적으로 증가하는 깊이와 파생 트리 형태의 수에 따라 2차적으로 증가하는 뉴런 수를 가진 트랜스포머를 구성합니다.
본 연구는 심층 트랜스포머 모델이 계층적 구조를 어떻게 표현하는지에 대한 이론적 이해를 제공하며, 모델 설계에 중요한 통찰력을 제공합니다.