Pulse · AI 뉴스

비디오 사전 지식을 활용한 비동기 노이즈 제거를 통한 통일된 4D 월드 액션 모델링

X-WAM · 2026-04-29

연구진은 실시간 로봇 액션 실행과 고품질 4D 월드 합성(비디오 + 3D 재구성)을 단일 프레임워크로 통합하는 X-WAM이라는 새로운 통일된 4D 월드 모델을 제안했어요.

X-WAM은 사전 학습된 비디오 확산 모델의 강력한 시각적 사전 지식을 활용하여 멀티뷰 RGB-D 비디오를 예측하여 미래 세계를 상상하고, 가벼운 구조적 적응을 통해 효율적으로 공간 정보를 얻어요.

5,800시간 이상의 로봇 데이터로 사전 훈련된 X-WAM은 RoboCasa 및 RoboTwin 2.0 벤치마크에서 79.2% 및 90.7%의 평균 성공률을 달성하며 시각적 및 기하학적 지표 모두에서 기존 방법을 능가했어요.

##월드모델##로봇공학##비디오##3D재구성##X-WAM
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기