ViT-Up은 비전 트랜스포머(ViT)의 중간 은닉 상태에서 레이어별 쿼리를 생성하여 외부 이미지 가이던스 없이 특징을 업샘플링하는 프레임워크예요.
Cityscapes에서 최대 +3.36 mIoU, SPair-71k에서 +8.09 [email protected]의 성능 향상을 보여줘요. 기존 이미지 가이던스 업샘플러보다 우수한 성능을 입증했어요.
DINOv3-B 백본과 함께 사용할 때 성능 향상이 더욱 두드러지며, 백본 용량 증가에 따라 유리하게 확장돼요.