ManiSplat은 단안 카메라로 촬영한 로봇 비디오에서 조작 가능한 3D 디지털 트윈을 재구성하는 프레임워크입니다.
Graph-Structured Disentangled Representation을 통해 로봇, 물체, 배경을 독립적으로 최적화할 수 있는 Gaussian 서브필드로 분리합니다.
Task-Oriented Spatio-Temporal Alignment 모듈을 사용하여 조작 작업의 논리를 활용하여 정확한 가짜 ground truth 경로를 생성하고, 시각적·기하학적 최적화를 통해 시간적 일관성을 확보합니다.