연구진이 비디오-행동 학습의 세분화 불일치를 해결하기 위해 이벤트 기반 World Action Model인 WALL-WM을 개발했어요.
WALL-WM은 의미론적으로 일관된 행동 이벤트를 학습의 기본 단위로 활용하여 Vision-Language-Action 사전 훈련을 진행하며, 기존 방식의 단편적인 최적화 문제를 해결해요.
이 모델은 다양한 행동, 장면, 작업 구조에 대한 확장 가능한 학습을 가능하게 하며, 실제 환경에서의 일반화 평가에서 최고 성능을 달성했어요.