비전 트랜스포머(ViT)는 자가 지도 학습에서 뛰어난 성능을 보여주지만, 이미지 크기가 커질수록 계산 효율성이 떨어지는 문제가 있어요. 연구진은 반복적인 방식으로 다중 확대 배율의 패치를 처리하는 새로운 트랜스포머 모델을 개발하여 이미지 크기에 제약 없이 작동하도록 만들었어요. 새로운 자가 지도 학습 프레임워크를 통해 ImageNet-1K 데이터셋에서 경쟁력 있는 성능을 달성하고 입력 해상도에 관계없이 일정한 계산 예산을 유지했어요.