MoCoTalk은 얼굴 이미지, 키포인트, 3DMM 쉐이딩 메시, 음성 오디오 등 다양한 조건부 신호를 통합하여 말하는 얼굴 영상을 생성하는 프레임워크입니다.
Adaptive Multi-Condition Router를 도입하여 조건 간의 충돌을 해결하고, 각 조건의 중요도를 시간 단계에 따라 조절합니다.
연구진은 음성 관련 얼굴 움직임을 더 잘 포착하기 위해 Mouth-Augmented Shading Mesh를 설계하여 시간적 일관성을 유지하고 속성을 자유롭게 재조합할 수 있도록 했습니다.