연구진이 모바일 조작 작업을 위한 새로운 세계 행동 모델 ABot-M0.5를 개발했어요. 기존 방식의 한계를 극복하기 위해 시간적 세분성, 행동 공간, 학습-테스트 일관성을 맞추는 데 집중했어요.
ABot-M0.5는 중간 잠재적 행동을 도입하여 시각적 상태 전환을 포착하고, 이중 트랜스포머 아키텍처로 다양한 행동 공간을 분리했어요.
꿈 강제 훈련 전략을 통해 역동학을 모델 예측 비디오에 점진적으로 학습시켜 학습-테스트 일관성을 개선하고 예측의 안정성을 높였어요.
ABot-M0.5는 어려운 모바일 및 정밀 조작 벤치마크에서 최고 성능을 달성하며, 세계 행동 모델링의 중요성을 강조했어요.