연구진이 비디오-행동 학습의 세분화 불일치를 해결하기 위해 이벤트 기반의 새로운 World Action Model (WAM)인 WALL-WM을 개발했어요.
WALL-WM은 의미론적으로 일관된 행동 이벤트를 학습의 기본 단위로 활용하여, 기존 WAM의 고정 길이 덩어리 중심 최적화 방식을 개선했어요.
이 모델은 이벤트 기반 VLA 사전 훈련과 이벤트 수준 캡션 및 클러스터 균형 샘플링을 통해 다양한 행동, 장면, 작업 구조에 대한 확장 가능한 학습을 지원하며, 다양한 벤치마크에서 최고 성능을 달성했어요.