연구진은 데이터 의존성을 줄인 RD-ViT(Recurrent-Depth Vision Transformer)를 개발했습니다. RD-ViT는 기존 ViT의 단점을 개선하여 2D 및 3D 입력을 모두 지원합니다.
ACDC 심장 MRI 분할 벤치마크에서 2D 환경에서 10%의 학습 데이터로 ViT보다 성능이 우수했으며, 전체 데이터 환경에서도 더 높은 정확도를 기록했습니다.
3D 환경에서 MoE(Mixture-of-Experts)를 사용한 RD-ViT는 기존 ViT 성능의 99.4%를 달성하면서도 파라미터 수를 53% 줄였습니다.