세계 행동 모델(WAM)은 미래 관측 및 행동을 예측하여 가상 시뮬레이션을 통해 의사 결정을 지원합니다. 하지만 이러한 가상 미래의 신뢰성은 아직 제대로 검토되지 않았습니다. 본 연구에서는 예측된 행동과 유도된 상태 전환의 일치인 행동-상태 일관성을 WAM의 신뢰성 축으로 제시합니다.
연구 결과, 다양한 작업에서 성공적인 시뮬레이션과 실패한 시뮬레이션을 구분하는 데 행동-상태 일관성이 중요한 역할을 하며, 학습된 가치 추정의 성공-실패 추세와 유사한 패턴을 보입니다.
연구진은 배경 붕괴 현상을 중요한 제약 조건으로 밝혀냈으며, 이는 역학적 실패 경로가 정적인 미래를 예측하기 쉽기 때문에 오해의 소지가 있는 일관성을 보일 수 있습니다. 이러한 발견을 바탕으로 훈련이나 보상 모델링 없이 RoboCasa 및 RoboTwin 2.0에서 성공률을 향상시키는 테스트 시간 선택을 위한 값 없는 합의 전략을 도입했습니다.