연구진이 오디오·비디오 동시 편집 프레임워크 InstructAV2AV를 제안했어요. 기존 방식이 오디오를 고려하지 않아 편집 결과가 어색했던 문제를 해결합니다. InsAVE-80K라는 대규모 오디오·비디오 편집 데이터셋을 구축하여 모델 학습에 활용했어요.
InstructAV2AV는 지시사항을 따르면서도 원본 콘텐츠를 보존하는 데 효과적입니다. 기존 방식 대비 11가지 지표에서 성능을 개선하며 동시 편집의 가능성을 보여줬어요. 프로젝트 페이지에서 추가 정보 확인 가능합니다.