연구팀은 영상-텍스트 정렬 모델의 한계, 특히 시간적 불일치와 의미적 비대칭 문제를 해결하기 위해 MoVA(Modular Long Video-Text Alignment)를 개발했어요.
MoVA는 텍스트 측 이중 투영을 통해 캡션의 프레임 인지 하위 공간을 선택하고, 영상 측 이중 투영을 통해 텍스트와 관련된 시각적 개념을 분리하는 방식으로 작동해요.
실험 결과, MoVA는 기존 방법보다 여러 영상-텍스트 정렬 작업에서 뛰어난 성능을 보이며 장비 영상과 긴 캡션에 효과적으로 대응하는 것을 입증했어요.