연구진은 FR3D라는 3D 세계 모델을 제안했어요. 이 모델은 3D 장면 변화와 에이전트 이동을 분리하여 미래의 3D 재구성을 예측합니다. 기존 방식과 달리 에이전트의 움직임을 잠재적 프록시로 활용하여 물리적 일관성을 확보했어요.
FR3D는 기존 모델이 가진 이미지 기반 특징의 모호함을 해결하고, 공간 상식 기반의 teacher-student distillation 전략을 사용해 제로샷 성능을 향상시켰어요. 프로젝트 페이지는 GitHub에서 확인할 수 있어요.