GMOS는 2D 보조 정보 없이 RGB 비디오만으로 움직이는 객체를 3차원 공간과 시간에 맞춰 분할하는 프레임워크입니다. GMOS-2K 데이터셋을 구축하여 5개의 VOS 벤치마크에서 객체별 시간 모션 주석을 활용하고, MOS-I 평가 프로토콜을 통해 시간적으로 세분화된 평가를 수행합니다. GMOS는 기존 방법보다 빠르며 온라인 추론을 지원하여 MOS, MOS-I, 비지도 VOS 벤치마크에서 최고 성능을 달성했습니다.