연구팀은 인터랙티브 비디오 생성 시스템의 한계를 극복하기 위해 Neural Implicit Scene(NIS)이라는 새로운 장면 중심 패러다임을 제안했어요. NeuWorld는 NIS를 학습하고 카메라 트래커리 조건부 디퓨전 트랜스포머를 활용하여 NIS를 발전시켜 인터랙티브 세계 탐험을 가능하게 해요. 이 모델은 기존 방식과 달리 장면 상태 전환과 렌더링을 분리하여 장기 일관성을 확보하고 효율적인 추론을 제공해요.
NeuWorld는 공개된 포즈 뷰 데이터로 학습되었으며, 사전 학습된 비디오 백본이나 보조 3D 재구성 없이도 강력한 장기 일관성을 보여줘요. 이 모델은 카메라, 참조 이미지, 과거 이력 정보를 NIS 모달리티로 매핑하여 다양한 조건을 통합적으로 처리할 수 있어요.
연구팀은 NeuWorld가 인터랙티브 비디오 생성 분야의 새로운 가능성을 열고, 더욱 자연스럽고 현실적인 인터랙티브 경험을 제공할 것으로 기대하고 있어요.