연구진은 월드 액션 모델(WAM)의 공간적 한계를 극복하기 위해 마스크를 통합한 MaskWAM을 개발했어요. MaskWAM은 마스크를 입력과 예측으로 동시에 활용하여 객체 중심의 의미론적 감독 신호를 제공하고 시각적 노이즈를 억제하며, 언어적 모호성을 줄여요. LIBERO, RoboTwin, 실제 환경에서의 실험 결과, MaskWAM은 기존 모델보다 뛰어난 성능을 보여줘요.