연구진은 시각 모델이 스스로 조립 가능한 구조를 발견할 수 있는지 질문하며 RATS(Register Attention Transformers)를 제안했어요. RATS는 N개의 학습 가능한 레지스터 토큰으로 분류 토큰을 분해하여 패치 정보를 압축-통신-방송 어텐션 병목 현상을 통해 라우팅해요. RATS는 5개의 세그멘테이션 벤치마크에서 평균 +12 mIoU로 기존 모델을 능가하며, 파트 수준의 일관성과 의미적 근접성을 보여줘요.