MemLearner는 비디오 월드 모델의 일관성 문제를 해결하기 위해 컨텍스트 쿼리 방법을 제안했어요. 기존 방식의 한계를 극복하기 위해, 비디오 생성 모델 자체를 활용해 컨텍스트를 쿼리하는 방식을 사용해요.
MemLearner는 장면 가려짐과 동적 객체가 있는 긴 비디오 데이터셋을 활용해 학습하며, 렌더링된 데이터와 실제 비디오를 함께 사용해요.
실험 결과, MemLearner는 장면 일관성과 메모리 측면에서 기존 비디오 월드 모델보다 뛰어난 성능을 보여줬어요, 특히 가려짐과 동적 환경에서 효과적이에요.