연구진이 비디오 기하학 정보 추정을 위한 ViGeo 모델을 공개했어요. 이 모델은 plain transformer 아키텍처 기반으로, 다양한 추론 방식(스트리밍, 전체 시퀀스, 장비디오)을 지원해요.
ViGeo는 동적 청킹 어텐션 기술을 활용해 양방향 및 인과적 시간 맥락을 학습하고, 테스트 시점에 어텐션 패턴을 조정할 수 있어요.
공개 데이터셋으로 학습한 ViGeo는 온라인, 오프라인, 장비디오 환경에서 기존 모델보다 뛰어난 성능을 보여줘요.