대규모 비디오 확산 모델은 고해상도 콘텐츠 생성에 뛰어나지만, 프롬프트 민감성, 시간적 불일치, 높은 추론 비용 등의 문제로 인해 실제 배포에 어려움이 있어요.
본 연구에서는 지도 학습(SFT), 인간 피드백 강화 학습(RLHF), 프롬프트 향상, 추론 최적화의 4단계 후처리 프레임워크를 제안하여 모델의 성능을 개선했어요.
실험 결과, 제안하는 파이프라인은 시각적 품질, 시간적 일관성, 제어력을 향상시키고 샘플링 비용 제약 조건을 준수하는 것으로 나타났어요.