연구진은 벡터 양자화 모션 토크나이저의 코드 인덱스가 무작위 범주형 레이블이 아닌 물리적 움직임의 프로토타입이라는 점에 주목했어요.
MoGeFlow는 학습된 코드북이 의미 있는 국소 운동-프로토타입 거리를 반영하는 지오메트리를 가진다는 것을 확인하고, 이를 활용한 텍스트-모션 생성 모델을 제안했어요.
MoGeFlow는 텍스트 조건부 연속 흐름을 학습하여 코드북 공간에서 지오메트리 기반 생성 방식으로, R-Precision, MultiModal Distance, FID 등 다양한 지표에서 최고 성능을 달성했어요.