연구진은 Vision Transformer(ViT)의 내부 표현 기하학적 변화를 분석하는 프레임워크 TGO-II를 공개했어요.
TGO-II는 CKA, SVCCA, TwoNN-ID, 토큰 공분산 분석 등을 통해 Transformer 레이어별 표현 특화, 표현 다양성 증가, 토큰 상호작용 유지라는 세 가지 주요 특징을 발견했어요.
연구 결과는 Transformer가 학습 과정에서 표현 복잡성과 레이어 특화가 동시에 나타나며, 토큰 상호작용 구조를 유지하면서 표현 다양성을 높인다는 새로운 가설을 제시해요.