연구진은 텍스트 또는 이미지 프롬프트를 활용해 원하는 객체 범주를 지정하는 언어·시각 보완 개방형 객체 탐지(LV-OSD)라는 새로운 문제를 제안했어요.
LV-OSD 프레임워크인 LVDor는 텍스트와 이미지 프롬프트를 동시에 수용하는 이중 분기 탐지 프레임워크를 설계하여 다양한 텍스트 설명과 이미지 샘플을 담은 멀티모달 프롬프트(MPr)를 구축해요.
대상 이미지의 사전 정보를 활용해 입력 이미지, 텍스트 프롬프트, 이미지 프롬프트 간 의미 간극을 좁히는 타겟 가이드 프롬프트 동적 가중치(TPDW) 모듈을 설계하여 정확한 정렬을 달성하고 두 모달성 간의 불일치를 줄여 LV-OSD 설정을 수용해요.