VL-SAM-v3는 개방형 객체 탐지를 위해 시각적 기억을 활용하는 새로운 프레임워크입니다. 이 모델은 후보 카테고리가 주어지면 관련 시각적 프로토타입을 검색하여 공간 앵커링과 클래스별 로컬 컨텍스트를 위한 시각적 우선순위를 제공합니다.
기존 방법은 텍스트 의미와 파라미터 지식에 의존했지만, VL-SAM-v3는 희귀 카테고리와 복잡한 장면에서 더 나은 성능을 보입니다.
LVIS 데이터셋에 대한 실험 결과, VL-SAM-v3는 개방형 어휘 및 개방형 추론 모두에서 성능을 향상시켰으며, 특히 희귀 카테고리에서 큰 효과를 보였습니다.