연구진은 피드포워드 노벨 뷰 합성(NVS) 트랜스포머에서 의미 정보와 공간 정보를 분리하는 새로운 방식을 제안했습니다. 기존 방식의 단점을 극복하기 위해 의미와 공간 정보를 분리된 토큰으로 표현하며, 상호 작용은 공유 어텐션 라우팅을 통해 유지합니다.
분리된 디자인은 추론 지연 시간을 거의 추가하지 않으며, 디코더 전용 및 인코더-디코더 피드포워드 NVS 모델 모두에서 성능 향상을 보였습니다.
카테고리화된 감독 학습 및 양방향 조절을 도입하여 각 분기별 학습 신호를 제공하고 두 분기 간의 상호 작용을 개선했습니다.