연구진은 시각 변환기(Vision Transformer)의 토큰 압축을 이미지 좌표에 얽매이지 않고 의미 기반으로 정렬하는 Representative Attention (RPAttention)을 제안했어요.
RPAttention은 Gather-Interact-Distribute 패러다임을 통해 토큰을 경쟁적 유사성 기반 라우팅으로 대표 토큰에 부드럽게 수집하고, 글로벌 상호작용을 수행하며, 쿼리 기반 크로스 어텐션을 통해 정보를 다시 브로드캐스팅해요.
이미지 분류, 객체 탐지, 의미론적 분할 등 다양한 작업에서 실험을 통해 RPAttention의 효과를 입증했어요.