연구진은 비주얼 지오메트리 트랜스포머의 연산 비용 증가 문제를 해결하기 위해 토큰 선택 전략을 제안했어요.
토큰 선택은 프레임 수준의 인터 프레임 선택과 프레임 내의 인트라 프레임 선택, 두 단계로 나뉘어 진행돼요.
인터 프레임 선택은 장면 전체를 커버하는 다양성을 기반으로, 인트라 프레임 선택은 레이어별 희소화를 통해 글로벌 어텐션 패턴 엔트로피를 활용해요.
제안된 방법은 기존 방식보다 속도와 정확도 측면에서 우수하며, 이미지 500개 장면에서 85% 이상의 속도 향상을 보여줘요.