비전 트랜스포머(ViT)는 이미지 분류 훈련만으로도 공간 이해 능력을 보여주지만, 사전 훈련 과정에서 공간적 감독을 받지 않아요.
ViT-B/16 레이어를 분석한 결과, 경계 구조는 5~6 레이어에서, 깊이는 8 레이어에서 가장 잘 디코딩되며, 이는 공간 정보를 통합하는 데 필요한 글로벌 큐를 반영해요.
분석 결과, 분류 훈련된 ViT는 원숭이 시각 피질에서 관찰되는 초기에서 후기까지의 진행을 반영하는 능동적으로 유지되는 공간 계층 구조를 개발하는 것을 알 수 있었어요.