연구진이 인터랙티브 월드 모델(IWM)의 장기 안정성을 평가하는 새로운 벤치마크 'WorldRoamBench'를 공개했어요. 기존 벤치마크의 한계를 극복하기 위해 액션, 비전, 물리, 메모리 4가지 차원을 평가하는 새로운 지표를 도입했어요. Nature, Urban, Indoor 등 다양한 환경에서 600개 이상의 테스트 케이스를 제공하며, 현재까지 평가된 10개 이상의 모델은 모든 차원에서 안정성을 만족하지 못하는 것으로 나타났어요.
WorldRoamBench는 액션, 비전, 물리, 메모리 4가지 차원을 평가하며, 액션은 프레임별 지표, 비전은 세그먼트 기반 드리프트 지표, 물리적 일관성은 제어 가능성 게이팅 평가, 메모리는 3D 포인트 클라우드 재구성 및 VLM 추론을 활용해요. Nature, Urban, Indoor 등 다양한 환경에서 10~60초 연속 인터랙션이 가능한 테스트 케이스를 제공하며, 첫인칭/세 번째 인칭 뷰를 지원해요.
WorldRoamBench는 IWM의 안정성, 물리적 기반, 메모리 충실성, 실제 응용 분야 배포 가능성을 높이는 데 기여할 것으로 기대돼요. 현재까지 평가된 모델은 중간 수준의 점수를 기록했으며, 향후 IWM 연구의 발전을 위한 중요한 지표가 될 것으로 보입니다.