연구진은 월드-에고 모델링이라는 새로운 패러다임을 제시하며, 미래 진화를 월드와 에고 구성 요소로 분해합니다. 월드-에고 경계를 운동, 의미, 의도 기반으로 정의하고, 후처리, 사전 처리, 완전 분리 전략을 분석했습니다.
연구진은 월드-에고 모델(WEM)을 구현하여, 암묵적인 분리된 월드-에고 플래너와 CP-MoE 확산 생성기를 결합했습니다. WEM은 HTEWorld 벤치마크에서 최고 성능을 달성했습니다.
HTEWorld는 월드 모델링을 위한 최초의 벤치마크로, 125K개의 비디오 클립과 300개의 멀티턴 평가 트랙션을 제공하며, 융합 내비게이션-조작 작업을 위한 장기 지향 평가를 가능하게 합니다.