Allen AI에서 언어 지침에 따라 3D 동작을 예측하는 새로운 모델 'MolmoMotion'을 공개했어요. 이 모델은 비디오 프레임, 객체 3D 포인트, 작문된 동작 지침을 입력받아 객체의 미래 3D 위치를 예측합니다.
MolmoMotion은 기존 예측 방법보다 성능이 뛰어나며, 로봇 계획 및 트래jectory 기반 비디오 생성 등 다양한 다운스트림 애플리케이션에 활용될 수 있어요. 모델과 함께 116만 개의 비디오에서 추출한 3D 포인트 트래jectory와 동작 지침으로 구성된 대규모 데이터셋 'MolmoMotion-1M'도 공개됐어요.
또한, 객체 중심 3D 동작 예측 정확도를 측정하기 위한 벤치마크 'PointMotionBench'도 함께 공개되었으며, 모델 가중치, 데이터셋, 벤치마크를 커뮤니티에 공개하여 연구 및 개선을 독려할 예정이에요.