연구진은 텍스트 기반 인간 움직임 생성을 위한 ScaleMoGen 프레임워크를 발표했어요. 기존 방식과 달리, ScaleMoGen은 움직임을 여러 스케일의 이산 토큰으로 분해하여 예측하는 방식으로 작동해요.
ScaleMoGen은 HumanML3D 데이터셋에서 FID 0.030, SnapMoGen 데이터셋에서 CLIP Score 0.693을 기록하며 기존 모델보다 뛰어난 성능을 보여줬어요.
연구 결과, ScaleMoGen의 다중 스케일 표현 방식은 훈련 없이 텍스트 기반 움직임 편집을 가능하게 하는 것으로 나타났어요.