연구진이 360° 동영상과 텍스트 프롬프트를 기반으로 고품질 공간 음향을 생성하는 스트리밍 프레임워크 SwanSphere를 제안했어요.
SwanSphere는 오토리거시브 디퓨전 트랜스포머 아키텍처를 활용해 공간 음향 생성 품질과 추론 지연 사이의 균형을 맞추고, 영상과 음향 도메인을 정렬하는 학습 전략을 적용했어요.
연구 결과, SwanSphere는 영상-공간 음향 및 텍스트-공간 음향 생성 작업에서 뛰어난 성능을 보였으며, 데모는 GitHub에서 확인할 수 있어요.