연구진은 Vision Transformer(ViT)의 패치 그리드 구조가 이미지 예측 시 위상 의존적 불안정성을 야기한다는 사실을 밝혀냈습니다. 패치 분할 방식에 따라 픽셀에 제공되는 토큰 증거가 달라져, 특히 경계 부근에서 성능 저하가 발생할 수 있습니다.
위상 제거(Phase Marginalization) 기법을 제안하여 패치 그리드 위상을 제거하고, 다양한 패치 그리드 위상을 평가하여 밀집 예측 결과를 역으로 정렬하고 원래 이미지 좌표계에 집계하는 방식을 사용합니다.
Uniform Phase Marginalization (K=4)은 학습 없이도 기존 K=1 방식보다 세분화된 이미지 분할, 깊이 추정, 로컬 매칭 성능을 향상시키며, Cityscapes 실험에서 일반적인 시프트 기반 TTA보다 0.31% IoU 향상을 보였습니다.