연구진이 자율주행차 시뮬레이션을 위한 Diffusion Transformer (DiT) 기반 월드-액션 모델을 개발했어요. 이 모델은 차량의 액션 계획을 기반으로 미래 카메라 장면을 예측하며, 기존 방식보다 현실적인 예측을 가능하게 해요. V-JEPA2는 단일 프레임 인코더 대비 조향 RMSE를 40% 줄이는 성능을 보여줬어요. Inception 기반 FID/KID 지표에서 DiT는 회귀 모델보다 4.8배 더 뛰어난 성능을 기록했어요.
기존 방식은 흐릿한 평균 예측을 장려했지만, 본 연구에서는 현실적인 장면 분포에 더 가까운 예측을 목표로 했어요. 개발된 모델은 액션에 따라 장면이 이동하는 것을 제어할 수 있으며, 단일 패스 모델의 한계를 극복하는 '점프' 모델을 통해 실제 움직임 크기를 회복했어요.
이 모델은 1.7M 파라미터로 구성되어 있으며, 테스트 시간 없이도 훈련을 통해 얻은 교정을 통해 실용적으로 활용 가능해요.