연구진이 얼굴 인식 Vision Transformer(ViT)의 해석 가능성을 높이는 새로운 방법인 '레지스터 토큰'을 제안했어요. 기존 방식(Concatenated Patch Embeddings, CPE)의 문제점을 개선하기 위해, 초기 패치 임베딩에 학습 가능한 토큰을 추가하는 방식이에요.
레지스터 토큰은 ViT 인코더 블록을 통해 함께 처리되며, 기존 방식보다 더 구조화되고 해석 가능한 어텐션 맵을 생성해요. 4개 또는 8개의 레지스터를 추가하면 해석 가능성이 향상되며, 특히 8개가 가장 효과적이에요.
새로운 모델 ViT-8R은 CPE 기반 ViT-B 아키텍처에 8개의 레지스터 토큰을 추가한 것으로, IJB-B 및 IJB-C 벤치마크에서 최고 성능을 달성했어요. 또한, 기존 모델보다 훨씬 명확한 어텐션 맵을 생성하여 모델의 작동 방식을 더 잘 이해할 수 있도록 돕습니다.