연구진이 단안 시각 오도메트리(MVO)의 강점을 높이는 MVOFormer라는 새로운 트랜스포머 프레임워크를 제안했어요. 이 프레임워크는 기하학적 운동 정보와 객체 중심의 의미 정보를 결합하여 정적 구조와 동적인 방해 요소를 명확하게 구분해요.
MVOFormer는 기존 방식보다 뛰어난 제로샷 일반화 성능과 강건성을 보여줘요. TartanAir, KITTI, TUM-RGBD, ETH3D-SLAM 등 다양한 벤치마크에서 기존 학습 기반 방식보다 우수한 성능을 기록했어요.
연구 결과는 기존 방식의 복잡한 다단계 아키텍처의 한계를 극복하고, 해석 가능하고 상호 보완적인 특징을 활용하여 MVO의 성능을 향상시킬 수 있음을 보여줘요.