연구진은 비디오 확산 모델이 3D 구조를 얼마나 잘 인식하는지 인간 동작 제어를 통해 조사했어요. 2D 렌더링에 의존하는 기존 방식 대신 3D 인간 메시 토큰을 활용한 렌더링 없는 프레임워크를 제안했어요. DiT 기반 아키텍처에서 비디오 토큰과 동작 토큰을 함께 처리하여 3D 구조와 카메라 시점을 함께 고려하는 모델을 만들었어요.
실험 결과 인간 동작 제어 벤치마크에서 뛰어난 성능을 보였고, 시점 의존적인 2D 가이드로 인한 아티팩트와 편집 시 트래젝토리-포즈 불일치를 줄였어요. 이는 메시 토큰화를 통해 비디오 확산 모델이 복잡한 3D 인간 구조와 환경과의 상호작용을 더 잘 포착할 수 있음을 시사해요.
연구는 3D 구조 인식 능력 향상을 통해 비디오 생성 모델의 성능을 개선할 수 있다는 점을 보여줘요.