연구진은 Transformer 모델의 로컬 어텐션이 모델 품질을 향상시키는 현상에 대한 공식적인 설명을 제시했습니다. 로컬 어텐션을 추가하면 두 번째 시간 연산자가 도입되어 인식 가능한 정규 언어의 범위를 확장합니다. 글로벌 및 로컬 어텐션은 상호 보완적이며, 두 가지를 결합하면 가장 풍부한 표현력을 얻을 수 있습니다.