MiVE는 레퍼런스 이미지를 활용하여 비디오 편집을 수행하는 새로운 프레임워크입니다. 기존 방식의 한계를 극복하기 위해 Qwen3-VL에서 멀티스케일 특징을 추출하여 사용합니다. 인간 평가에서 기존 방법과 상용 시스템을 모두 능가하는 뛰어난 성능을 보여주었습니다.
MiVE는 VLM의 계층적 특징을 활용하여 공간적 디테일과 전역 의미를 모두 반영합니다. 이를 통해 기존 방식의 모달리티 격차 문제를 해결하고, 더욱 정확한 편집을 가능하게 합니다.
MiVE는 멀티스케일 시각-언어 특징을 추출하여 통합된 자기 주의 Diffusion Transformer에 적용하여, 레퍼런스 기반 비디오 편집의 새로운 가능성을 제시합니다.