Embody4D는 단안 비디오로부터 새로운 시점을 합성할 수 있는 로봇 에이전트를 위한 비디오-투-비디오 월드 모델입니다. 데이터 부족 문제를 해결하기 위해 3D-인식 합성 파이프라인을 도입하여 다양한 배경과 로봇 팔을 조합한 이종 데이터 세트를 구축했습니다. 로봇 상호 작용 영역에 명시적으로 주의를 기울이는 상호 작용 인식 어텐션 메커니즘을 통합하여 조작의 정확성을 보장합니다.