연구진이 튜닝 없이 Stable Diffusion과 IP-Adapter를 활용한 말하는 얼굴 생성 기술을 제안했어요.
Structurist, Structure Controller, Noise Sensor 등 3가지 trainable-parameterfree 컴포넌트를 설계하여 얼굴 정체성 유지, 동기화 오류 감소, 시간적 안정성 확보했어요.
실험 결과 기존 방식보다 입동기 정확도(PCLD 기준 0.16 향상)와 시각적 품질(FID 기준 0.7 향상) 모두 우수했어요.