Pulse · AI 뉴스

ViT의 공간 계층 구조 탐색: 가장자리에서 깊이까지

arXiv cs.CV · 2026-04-26

비전 트랜스포머(ViT)는 이미지 분류 훈련만으로도 공간 이해 능력을 보여주지만, 사전 훈련 과정에서 공간적 감독을 받지 않아요.

ViT-B/16 레이어를 분석한 결과, 경계 구조는 5~6 레이어에서, 깊이는 8 레이어에서 가장 잘 디코딩되며, 이는 공간 정보를 통합하는 데 필요한 글로벌 큐를 반영해요.

분석 결과, 분류 훈련된 ViT는 원숭이 시각 피질에서 관찰되는 초기에서 후기까지의 진행을 반영하는 능동적으로 유지되는 공간 계층 구조를 개발하는 것을 알 수 있었어요.

##ViT##비전트랜스포머##공간계층구조##딥러닝

매일 핵심 AI 소식을 한국어로, 빠르게