최근 연구에 따르면, 연속적인 비전 트랜스포머(ViT) 블록은 선형 맵으로 대체되거나 반복적인 계산 단계로 구성될 수 있다고 합니다. 본 연구는 이러한 관찰이 일치하는지, 즉 ViT 깊이가 단일 연산자 K를 통해 반복적으로 적용되는 자율 선형 동역학을 구현하는지 조사했습니다. 동적 모드 분해(DMD) 기법을 활용하여 ViT의 작동 방식을 분석했습니다.
DINO ViT 모델 4개에 대해 안정적인 연산자 K를 찾기 위한 정규화, 랭크, 교정 예산 등을 연구한 결과, 짧은 구간(p ≤ 4)에서는 예측 정확도가 높았으며, 중간 활성화 상태를 복구할 수 있었습니다. 초기 구간에서 연산자는 최소한의 교정 데이터로 낮은 랭크를 가지며, 토큰 간에는 cls 토큰이 선형화에 가장 적합했습니다.
그러나 이러한 로컬 정확도는 다운스트림 작업에서 전달되지 않았으며, 마지막 히든 상태에서는 동일한 기준선이 경쟁력을 갖게 되었습니다.