연구진은 Segment Anything Model 2 (SAM2)를 기반으로 RGB-D 비디오 눈에 띄는 객체 감지 (RGB-D VSOD)를 위한 새로운 모델 M$^4$-SAM을 개발했어요.
M$^4$-SAM은 모달리티 관련 PEFT, 계층적 특징 융합, 프롬프트 없는 메모리 초기화를 통해 SAM2의 공간 모델링, 다중 스케일 특징 활용, 초기화 의존성 문제를 해결했어요.
세 개의 공개 RGB-D VSOD 데이터셋에서 M$^4$-SAM은 모든 평가 지표에서 최고 성능을 달성하며 기존 모델을 능가했어요.