Pulse · AI 뉴스

MoVA: 모듈형 장비 영상-텍스트 정렬을 위한 비대칭 이중 투영 학습

MoVA · 2026-07-01

연구팀은 영상-텍스트 정렬 모델의 한계, 특히 시간적 불일치와 의미적 비대칭 문제를 해결하기 위해 MoVA(Modular Long Video-Text Alignment)를 개발했어요.

MoVA는 텍스트 측 이중 투영을 통해 캡션의 프레임 인지 하위 공간을 선택하고, 영상 측 이중 투영을 통해 텍스트와 관련된 시각적 개념을 분리하는 방식으로 작동해요.

실험 결과, MoVA는 기존 방법보다 여러 영상-텍스트 정렬 작업에서 뛰어난 성능을 보이며 장비 영상과 긴 캡션에 효과적으로 대응하는 것을 입증했어요.

##영상정렬##MoVA##인공지능
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기