Pulse · AI 뉴스

Unison: 움직임, 음성, 음향의 조화로운 통합으로 인간 중심 오디오·비디오 생성

Unison · 2026-05-09

Unison은 움직임, 음성, 음향의 불일치를 해결하기 위해 개발된 새로운 프레임워크입니다. 이 프레임워크는 오디오 스트림 내에서 음성과 음향 효과를 분리하여 생성하고, 오디오-모션 동기화를 위해 양방향 교차 모달 강제 전략을 사용합니다. 실험 결과, Unison은 오디오 품질과 교차 모달 동기화 측면에서 뛰어난 성능을 보여주었습니다.

Unison은 음성 지배를 완화하고 음향 명료도를 높이기 위해 의미 기반 게이팅을 활용한 양방향 오디오 교차 어텐션을 사용합니다. 또한, 더 깨끗한 모달리티가 노이즈가 많은 모달리티를 안내하는 양방향 교차 모달 강제 전략을 통해 오디오-모션 동기화를 개선합니다.

연구진은 Unison이 인간 중심 비디오 생성에서 다중 모달 조화의 중요성을 강조하며, 기존 모델보다 우수한 성능을 입증했습니다.

##비디오생성##오디오##음성##AI
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기