연구진은 시각-언어-행동(VLA) 모델의 월드 모델 파라미터 설계에 대한 새로운 접근 방식인 OneWM-VLA를 제안했습니다.
OneWM-VLA는 프레임당 시각 정보를 단일 의미 토큰으로 압축하여 월드 모델의 효율성을 높이고, 14.71M LoRA 파라미터로 MetaWorld~MT50에서 성공률을 61.3%까지 향상시켰습니다.
실험 결과, 프레임당 시각 대역폭을 단일 토큰으로 줄여도 장기적인 성능 저하 없이 VLA 모델을 개선할 수 있음을 확인했습니다.