연구진은 시뮬레이션 환경에서 인간형 로봇의 로코-조작을 위한 비전-언어-운동(VLK) 데이터셋을 생성하는 파이프라인을 개발했어요.
3D Gaussian Splatting으로 실내 환경을 재구성하고, 우선 정보 기반으로 내비게이션 및 객체 상호작용 경로를 합성하며, 이후 시각적 관찰 데이터를 렌더링하는 방식이에요.
합성된 데이터셋을 활용해 물리적인 Unitree G1 로봇에서 내비게이션 및 단일 객체 운반 작업을 수행하며, 시뮬레이션에서 실제 환경으로의 이전 가능성을 입증했어요.