연구진이 ViT 모델의 공간적 표현을 개선하는 UniRefiner 프레임워크를 제안했어요. UniRefiner는 기존 ViT 모델이 스스로 불필요한 부분을 제거하도록 학습시켜 다양한 유형의 오류 토큰을 처리해요.
UniRefiner는 이미지 토큰과 정제된 토큰을 정렬하고, 오류 토큰을 감지하여 정렬하는 이중 목표를 가진 대조 학습 방식을 사용해요.
EVA-CLIP-8B 모델을 UniRefiner로 개선했을 때 ADE20K 데이터셋에서 mIoU가 51.9%로 9.4% 향상되었고, DINOv2보다 뛰어난 성능을 보였어요.
UniRefiner는 기존 대규모 모델의 공간적 잠재력을 활용하여 더 넓은 범위의 응용 가능성을 열어줄 것으로 기대돼요.