연구진은 시간 예측에 사용되는 Transformer 모델의 내부 작동 방식을 분석했습니다. 그 결과, 시간 예측 성능에 '중첩'이라는 핵심 기능이 반드시 필요하지 않다는 사실을 밝혀냈습니다.
Sparse Autoencoders(SAE)를 활용하여 PatchTST 모델의 중간층 활성화를 분석한 결과, 모델의 성능에 큰 영향을 미치는 중첩된 표현은 거의 발견되지 않았습니다.
연구 결과는 시간 예측에서 간단한 선형 모델이 경쟁력을 유지하는 이유를 설명하며, Transformer 모델이 언어 모델만큼 복잡한 표현을 요구하지 않을 수 있음을 시사합니다.