연구진은 고비용·고지연 문제를 해결하기 위해 경량화된 세계 행동 모델 Light-WAM을 제안했어요.
Light-WAM은 다운샘플링된 잠재 공간에서 미래 비디오 감독을 수행하고, 상태 융합 액션 전문가를 도입하여 효율적인 로봇 액션 예측을 가능하게 해요.
실험 결과 Light-WAM은 LIBERO에서 강력한 성능을 유지하고, RoboTwin 2.0에서 사용 가능한 다중 작업 성능을 달성하며, 0.44B 파라미터로 72.03ms의 추론 지연 시간을 보여줬어요.