연구진이 Smart-Insertion-V라는 새로운 비디오 객체 삽입 프레임워크를 제안했어요. 이 프레임워크는 비디오 삽입과 이미지 스타일 변환을 동시에 수행하며, 폐루프 피드백 메커니즘을 통해 안정적인 삽입을 보장해요.
Dual-World-View RoPE를 설계하여 다양한 신호를 구별하고, Decoupled Guidance Module을 통해 공간적 위치 파악과 스타일 적응을 돕고 있어요.
연구진은 데이터 격차를 해소하기 위해 데이터 큐레이션 파이프라인을 제안하고 오픈 소스 데이터셋을 공개할 예정이에요.