Vision Transformer(ViT)는 이미지 수준 표현은 강력하지만, 장기 훈련 시 패치 표현은 밀집 예측에 덜 효과적입니다. 연구진은 이 밀집 성능 저하 현상을 재조명하여 고노름 현상만으로는 설명할 수 없다고 주장합니다. '의미 확산' 현상을 규명하며, 전역 의미 정보가 지역적으로 정당화되지 않은 패치 토큰을 통해 확산되는 최적화 단축로를 지적합니다.