UMo는 텍스트, 오디오, 모션 토큰을 통합 방식으로 처리하여 실시간 코스피치 아바타를 위한 새로운 아키텍처입니다. 희소 Mixture-of-Experts 프레임워크와 핵심 프레임 기반의 시간적 희소성을 활용하여 고품질 애니메이션 생성을 가능하게 합니다.
UMo는 기존 방식의 단점을 극복하고, 음성 모션 정렬을 유지하며, 낮은 지연 시간 제약 조건에서도 작동합니다. 다단계 훈련 전략과 오디오 증강을 통해 음성 다양성과 의미 일관성을 향상시켰습니다.
실험 결과, UMo는 낮은 지연 시간과 실시간 성능 제약 조건 하에서 더 나은 품질을 달성하며, 고품질 실시간 코스피치 아바타를 위한 실용적인 솔루션을 제공합니다.