연구진이 고품질 훈련 데이터 부족 문제를 해결하기 위해 멀티샷 장편 오디오·비디오 합 생성 연구용 대규모 데이터셋 CineDance-1M을 공개했어요.
CineDance-1M은 평균 92.8초, 24.2개의 연속적인 샷으로 구성되며 오디오와 비디오 모달리티 모두에 대해 구조화된 주석을 제공해요.
연구진은 CineDance를 통해 LTX-2.3 모델을 개선하여 뛰어난 단일 모달리티 품질과 정확한 오디오·비디오 정렬, 안정적인 피사체 및 환경 일관성을 확보했어요.