연구진은 다양한 기하학적 인식 능력을 통합하는 새로운 모델 UniT을 개발했어요.
UniT은 그룹 오토리거시브 트랜스포머를 기반으로 온라인 인식, 오프라인 재구성, 다중 모달 통합, 장기 호라이즌 확장, 미터 스케일 추정 등 다양한 기능을 하나의 프레임워크로 통합합니다.
그룹 크기를 조절하여 온라인 모드는 단일 프레임 그룹으로 여러 오토리거시브 단계를 거치고, 오프라인 모드는 멀티 프레임 그룹을 단일 패스에서 집계하며, 큐 기반 KV 캐싱 메커니즘을 통해 장기 호라이즌에서 메모리 사용량을 제한합니다.