연구자들이 상상 환경에서의 훈련을 통해 지속적 학습을 시도하고 있습니다. 실제 로봇이 환경 모델을 구축하고, 상상 속에서 훈련한 후 새로운 정책을 적용하는 방식은 지속적 학습의 한 형태일 수 있습니다. 대부분의 연구에서 환경 모델은 훈련 후 고정되지만, 실제 적용에서는 환경 모델 자체를 지속적으로 업데이트하는 것이 중요합니다. 폐쇄 루프 시스템에서 세계 모델의 드리프트가 가장 큰 문제로 예상되며, 이에 대한 분석이 필요합니다.