연구진이 텍스트-비디오 생성 시 발생하는 모션 불일치 문제를 해결하기 위해 스펙트럴 루카헤드 수정(SpecLoR) 기법을 제안했어요. SpecLoR은 노이즈를 예측하여 회피하고, 주파수 영역에서 수정 작업을 수행하여 계산 비용을 줄였어요.
SpecLoR은 초기 샘플링 단계에서 깨끗한 잠재 변수를 예측하고 3D 스펙트럼을 계산한 뒤, 스펙트럼을 수정하여 자연스러운 비디오의 통계적 사전과 일치시키고 다시 노이즈를 추가하는 방식으로 작동해요.
Wan2.2 모델에 적용한 결과, 물리적 오류를 줄이고 여러 벤치마크에서 모션 일관성을 향상시켰으며, 추가적인 신경망 피드포워드 연산(NFE) 4회만으로 구현 가능했어요.