연구진은 씬 기반 상호작용 세계 탐험 패러다임인 NeuWorld를 제안했어요. 이 패러다임은 프레임 레이턴트 대신 렌더링 가능한 암시적 상태인 Neural Implicit Scene(NIS)을 활용해 상호작용 생성을 단순화해요.
NeuWorld는 로컬 앵커 NIS를 희소 포즈 프레임에서 학습하는 Transformer VAE와 미래 카메라 트래젝토리 및 Geometry-aware 검색 기록에 조건부로 NIS를 진화시키는 Diffusion Transformer로 구성돼요.
공개된 포즈 뷰 데이터로 처음부터 학습한 NeuWorld는 기존 방식 대비 우수한 장기 일관성과 효율적인 추론 성능을 보여줘요.