Pulse · AI 뉴스

Talker-T2AV: 자율 회귀 확산 모델을 활용한 음성-영상 동시 생성

Talker-T2AV · 2026-04-26

연구진은 음성-영상 동시 생성 모델에서 고수준 의미와 저수준 디테일을 분리하여 효율성을 높이는 Talker-T2AV 프레임워크를 제안했어요.

Talker-T2AV는 공유된 백본에서 음성-영상 간의 고수준 상관관계를 모델링하고, 모달리티별 디코더를 사용하여 저수준 디테일을 처리하는 방식이에요.

실험 결과, Talker-T2AV는 기존 방식보다 입술 동기화 정확도, 영상 품질, 음성 품질이 향상되었으며, 음성-영상 일관성이 더 뛰어났어요.

##음성##영상##합성##확산모델##Talker-T2AV

매일 핵심 AI 소식을 한국어로, 빠르게