Ego2World는 HD-EPIC 요리 영상을 기반으로 실행 가능한 심볼릭 환경을 구축하는 새로운 벤치마크입니다. 에이전트는 제한된 정보 하에서 계획해야 하며, 객체를 기억하고 상태 변화를 추적하며 실패 시 복구해야 합니다.
Ego2World는 비디오 주석에서 재사용 가능한 전환 규칙을 파생하여 숨겨진 심볼릭 월드 그래프에서 실행합니다. 에이전트는 로컬 관찰과 실행 피드백만을 사용하여 자신의 부분적인 믿음 그래프를 통해 계획합니다.
실험 결과, 액션 오버랩 점수가 물리적 상태 성공을 과대평가하며, 지속적인 믿음 메모리는 작업 완료율을 높이고 반복적인 시각적 탐색을 줄이는 데 도움이 된다는 것을 확인했습니다.