연구진이 텍스트 프롬프트만으로 영상 속 미세 객체를 이해하는 새로운 학습 전략인 SWIM(See What I Mean)을 공개했어요. 기존 방식처럼 마스크나 포인트 같은 시각적 프롬프트 없이도 모델이 사용자가 지정한 객체에 자동으로 집중하도록 합니다.
SWIM은 사전 학습된 멀티모달 대규모 언어 모델(MLLM)의 교차 주의 분석 결과, 객체 명사는 분산된 패턴을 보이는 문제점을 해결하기 위해 NL-Refer 데이터셋을 활용했어요.
실험 결과, SWIM은 텍스트-시각 정렬을 크게 개선하고 미세 객체 이해 벤치마크에서 시각적 프롬프트 기반 방법보다 뛰어난 성능을 보여줬으며, GitHub에서 코드와 데이터셋을 공개했어요.