연구진은 복잡한 시나리오에서 여러 객체를 동시에 분할하는 개방형 참조 분할 문제를 해결하기 위해 Set-Concept Segmentation (SetCon) 모델을 제안했어요.
SetCon은 LVLM이 생성한 자연어 개념을 활용하여 집합 수준의 완전성 및 상호 배타성과 같은 속성을 고려한 마스크-집합 디코딩을 수행해요.
새로운 모델은 이미지 및 비디오 벤치마크에서 최고 성능을 달성했으며, 특히 참조 대상의 수가 증가할수록 성능 격차가 커지는 것을 확인했어요.