ActWorld는 사용자의 실시간 액션에 따라 환경 역학을 시뮬레이션하는 상호작용 세계 모델입니다. 기존 모델은 주로 내비게이션에 집중했지만, ActWorld는 덩어리 단위의 자동 회귀 프레임워크 내에서 미드롤아웃 객체 상호작용을 지원합니다.
데이터 부족과 메모리 병목 현상이 문제였는데, ActWorld는 100만 건의 상호작용 비디오 데이터셋을 구축하고 액션 인지 메모리 설계를 도입하여 해결했습니다.
ActWorld는 유연한 내비게이션과 풍부한 객체 상호작용을 동시에 지원하며, 시야점 제어 능력을 유지하면서 상호작용 충실도를 향상시켰습니다.