연구진이 실시간 입술 동기화를 위해 새로운 방식인 'Lip Forcing'을 개발했어요. 기존 방식보다 훨씬 빠른 속도로 작동하며, 14B 모델을 1.3B 모델로 압축하여 실시간 스트리밍 속도를 31FPS까지 끌어올렸어요. Lip Forcing은 2단계 디노이징만으로 작동하며, 기존 디퓨전 방식보다 훨씬 빠른 속도를 제공해요.
Lip Forcing은 비디오-비디오(V2V) 입술 동기화를 위한 최초의 자기회귀 디퓨전 방식으로, 14B 모델을 기반으로 1.3B 모델로 압축하여 실시간 성능을 확보했어요. 연구 결과, CFG 가이드 없이 예측하면 원본 영상의 충실도가 높아지고, CFG 가이드 예측은 동기화 성능을 향상시키는 것으로 나타났어요.
Lip Forcing은 Sync-Window DMD, 2단계 추론 스케줄, SyncNet 기반 보상 등 세 가지 분석 기반 요소를 활용하여 성능을 최적화했어요. 14B 모델은 교사 모델보다 39.8배 빠른 속도로 작동하며, 첫 프레임 생성 시간은 1ms 미만으로 매우 빠릅니다.