본 연구는 Vision Transformer(ViT)의 위치 임베딩 방식이 내부 표현에 미치는 영향을 분석하고, 내용 변화에 대한 강건성과 관련성을 조사합니다.
연구진은 Spatial Similarity Distance Correlation(SSDC)라는 지표를 도입하여 토큰 표현의 공간 구조를 정량화했습니다.
실험 결과, 위치 임베딩이 없는 ViT는 시각적 내용에 의해 공간 구조가 결정되지만, 토큰 순서 변경 시 붕괴되는 반면, 학습된 위치 임베딩은 일관된 공간적 조직을 유지합니다.
연구는 위치 임베딩 방식에 따른 공간 구조의 깊이별 변화를 보여주며, 특정 인코딩 방식보다 안정적인 위치 참조 프레임의 존재가 강건성에 더 중요하다고 제안합니다.