Aurora는 사용자의 언어적·시각적 요구사항을 해결하는 에이전트 기반 비디오 편집 프레임워크입니다. VLM 에이전트는 원시 사용자 요청을 구조화된 편집 계획으로 변환하여 비디오 디퓨전 트랜스포머의 조건부 채널과 정렬합니다. AgentEdit-Bench를 통해 언어적·시각적 불명확성 하에서 에이전트 기반 비디오 편집 성능을 평가했습니다.
Aurora는 기존 instruction-only 방식보다 성능이 뛰어나며, VLM 에이전트는 호환 가능한 frozen 비디오 편집 모델로 전이될 수 있습니다. 프로젝트 페이지는 https://yeates.github.io/Aurora-Page 입니다.
연구팀은 VLM 에이전트를 훈련하여 완전한 편집 계획 및 참조 이미지 선택을 위한 감독 데이터와 함께 강력한 도구 사용 및 지침 개선을 위한 선호도 쌍을 활용했습니다.