연구진은 Soft Mixture-of-Recursions(SoftMoR)을 제안하며, 이를 활용한 Soft Recursive Vision Transformer(SR-ViT)를 개발했어요. SR-ViT는 모든 순환 단계의 출력을 토큰별 혼합 가중치로 부드럽게 결합하여 중간 표현을 활용하는 방식이에요.
ImageNet-1K 데이터셋에서 SR-ViT의 순환 깊이를 1에서 4로 늘리면서 정확도가 79.83%에서 82.48%로 향상됐고, 파라미터 오버헤드는 170만 개에 불과했어요.
SR-ViT는 DeiT-B보다 작은 파라미터로 더 나은 성능을 보여주며, 순환을 통해 더 깊고 강력한 비전 트랜스포머를 구축하는 효율적인 방법을 제시했어요.