연구진은 비전 트랜스포머(ViT)의 깊이 중 어느 정도가 레이어별 변환을 필요로 하고 어느 정도가 재귀적 연산을 통해 구현될 수 있는지 연구했습니다.
bViT는 단일 트랜스포머 블록을 반복적으로 적용하여 이미지를 처리하는 단일 블록 재귀 ViT로, ImageNet-1K 데이터셋에서 표준 ViT-B와 유사한 정확도를 달성했습니다.
연구 결과, 표현 너비가 넓은 bViT는 좁은 변형보다 표준 ViT의 성능을 더 많이 회복하며, 이는 공유 블록이 진화하는 은닉 상태를 통해 여러 단계 의존적 연산을 표현하는 것과 관련이 있습니다.