Pulse · AI 뉴스

VL-SAM-v3: 시각적 기억 기반 개방형 객체 탐지 모델

VL-SAM-v3 · 2026-05-05

VL-SAM-v3는 개방형 객체 탐지를 위해 시각적 기억을 활용하는 새로운 프레임워크입니다. 이 모델은 후보 카테고리가 주어지면 관련 시각적 프로토타입을 검색하여 공간 앵커링과 클래스별 로컬 컨텍스트를 위한 시각적 우선순위를 제공합니다.

기존 방법은 텍스트 의미와 파라미터 지식에 의존했지만, VL-SAM-v3는 희귀 카테고리와 복잡한 장면에서 더 나은 성능을 보입니다.

LVIS 데이터셋에 대한 실험 결과, VL-SAM-v3는 개방형 어휘 및 개방형 추론 모두에서 성능을 향상시켰으며, 특히 희귀 카테고리에서 큰 효과를 보였습니다.

##객체탐지##컴퓨터비전##개방형어휘##시각적기억

매일 핵심 AI 소식을 한국어로, 빠르게