연구진이 427시간 분량의 MMBench2 데이터셋을 활용해 350만 파라미터 규모의 월드 모델을 훈련했어요. 환각 현상은 지각, 행동, 장면 세 가지 모드로 나뉘며, 데이터 커버리지 부족이 원인임을 밝혀냈어요.
환각 예측 신호를 활용해 온라인 데이터 수집을 유도하는 방식으로, 50개의 실제 환경 트래jectory만으로 새로운 환경에 적응하는 데이터 효율적인 튜닝 방법을 개발했어요.
연구 결과, 월드 모델의 환각 현상은 데이터 커버리지 문제이며, 이를 감지하는 신호로 완화할 수 있음을 확인했어요.