연구진은 비디오 데이터에 대한 대규모 생성 모델 훈련을 탐구했어요. 다양한 길이, 해상도, 비율의 영상과 이미지를 활용해 텍스트 기반 확산 모델을 훈련했어요. Sora라는 가장 큰 모델은 고화질의 1분 분량 비디오를 생성할 수 있는 성능을 보여줬어요.