AnyMo는 텍스트, 음성, 음악, 경로 등 다양한 모드를 활용한 인간 모션 생성 프레임워크입니다. 연구진은 5,000시간 분량의 모션과 320만 개의 시퀀스를 담은 대규모 데이터셋 OmniHuMo를 구축했습니다. AnyMo는 Residual FSQ 기반의 모션 토크나이저와 확장 가능한 마스크 모델링 트랜스포머를 결합하여 고품질 모션 합성을 가능하게 합니다.
AnyMo는 다양한 모드 조합 하에 고품질 모션 합성을 달성하며, 공간적, 스타일적 속성에 대한 유연한 제어를 제공합니다. 연구 결과, AnyMo는 기존 방식 대비 뛰어난 성능을 보여줍니다.
OmniHuMo 데이터셋은 다양한 모드 간의 정렬된 데이터를 확보하는 데 기여하며, AnyMo 프레임워크는 확장 가능한 마스크 모델링 트랜스포머를 통해 다양한 모드 조합을 지원합니다.