연구진은 오디오-비디오 동기화가 중요한 빠른 오디오-비디오 생성 프레임워크인 뮤추얼 포싱을 제안했어요. 뮤추얼 포싱은 양방향 모델을 거치지 않고, 단일 모델 내에서 자체 증류를 통해 효율성과 일관성을 높이는 방식이에요. 실험 결과, 뮤추얼 포싱은 기존 방식보다 적은 샘플링 단계로 더 높은 품질을 달성하며 효율성을 입증했어요.