연구진은 3D 환경에서 효과적인 탐색을 위해 지속적인 세계 모델과 에피소드 컨텍스트의 중요성을 강조했어요.
기존 호기심 기반 강화 학습은 환경 예측 모델과 현실 간 불일치에서 발생하는 보상으로 작동하지만, 복잡한 환경에서는 반복적인 탐색에 갇히는 한계가 있었어요.
온라인 3D 재구축을 통해 지속적인 세계 모델을 구축하고, RGB 관찰을 기반으로 시퀀스 모델을 활용하여 에피소드 컨텍스트를 유지하는 방법을 제시했어요.
HM3D 환경에서 훈련된 에이전트는 기존의 RL 기반 매핑 방식보다 뛰어난 성능을 보였으며, Gibson 및 AI 생성 환경에서도 제로샷으로 일반화되었어요.