RepWAM은 시각-행동 토크나이저를 기반으로 하는 세계 행동 모델(WAM)입니다. 기존 WAM은 주로 사전 훈련된 비디오 생성 모델의 재구성 지향적 비디오 토크나이저를 상속하지만, RepWAM은 시각과 잠재적 행동 토큰을 매핑하는 시각-행동 토크나이저를 활용합니다. 실험 결과, RepWAM은 다양한 조작 환경에서 강력한 성능을 보이며, 기존 방식 대비 시각-행동 토크나이저의 가치를 입증했습니다.