Pulse · AI 뉴스

반지도 학습을 위한 토폴로지 기반 시각-언어 표현 정렬

arXiv cs.CV · 2026-04-29

시각-언어 모델은 특정 분야에서 성능이 떨어지는 경향이 있는데, 본 연구는 소량의 레이블 데이터와 풍부한 비레이블 데이터를 활용하는 반지도 학습 방법을 통해 이를 개선하고자 해요.

ToMA(Topology-Aware Multimodal Representation Alignment) 프레임워크를 제안하며, 지속적인 호모로지(persistent homology)를 사용하여 양방향 대응을 통해 모달리티 간 토폴로지적으로 중요한 에지를 정렬해요.

원격 감지 분야에서 뚜렷한 성능 향상을 보였고, 패션 검색 분야에서도 꾸준한 이점을 확인했어요.

##반지도학습##시각언어모델##토폴로지##ToMA##표현정렬

매일 핵심 AI 소식을 한국어로, 빠르게