시각-언어 모델은 특정 분야에서 성능이 떨어지는 경향이 있는데, 본 연구는 소량의 레이블 데이터와 풍부한 비레이블 데이터를 활용하는 반지도 학습 방법을 통해 이를 개선하고자 해요.
ToMA(Topology-Aware Multimodal Representation Alignment) 프레임워크를 제안하며, 지속적인 호모로지(persistent homology)를 사용하여 양방향 대응을 통해 모달리티 간 토폴로지적으로 중요한 에지를 정렬해요.
원격 감지 분야에서 뚜렷한 성능 향상을 보였고, 패션 검색 분야에서도 꾸준한 이점을 확인했어요.