연구진은 이미지-비디오 생성 시 효율성과 품질을 동시에 잡는 SwiftI2V 프레임워크를 제안했습니다. SwiftI2V는 저해상도 모션 레퍼런스를 먼저 생성하여 토큰 사용량을 줄이고, 이후 고해상도 합성을 통해 입력 이미지의 세부 사항을 복원합니다. VBench-I2V 2K 해상도에서 기존 방식 대비 GPU 사용 시간을 202배 단축하며, 단일 데이터센터 GPU 또는 RTX 4090으로 2K 이미지-비디오 생성이 가능합니다.