연구진은 기존의 통합 멀티모달 검색(UMR) 방법이 샘플 수준의 목표에만 집중하여 중요한 주제 수준의 의미를 간과한다는 점에 주목했어요.
새로운 프레임워크인 Salient Subject-Aware Multimodal Embedding (SSA-ME)를 제안하여 시각적 개념의 중요성을 강조하고 의미론적으로 일관된 지역을 더 잘 정렬하도록 설계했어요.
SSA-ME는 MMEB 벤치마크에서 최첨단 성능을 달성하며 주제 수준 모델링이 멀티모달 검색 성능을 크게 향상시킨다는 것을 입증했어요.