Aurora는 사용자의 언어 기반 요청을 구조화된 편집 계획으로 변환하는 에이전트 기반 비디오 편집 프레임워크입니다. VLM 에이전트는 텍스트 및 시각적 정보 부족을 해결하여 비디오 디퓨전 트랜스포머의 조건부 채널과 일치시킵니다.
AgentEdit-Bench를 통해 언어 및 시각적 정보 부족 상태에서 에이전트 기반 비디오 편집 성능을 평가했으며, 기존 방식보다 성능이 향상된 것을 확인했습니다.
Aurora는 기존 비디오 편집 모델에 적용 가능하며, 다양한 frozen 모델에 대한 전이 학습이 가능합니다. 프로젝트 페이지는 GitHub에서 확인할 수 있습니다.