연구진이 자율 주행을 위한 비디오 생성 기반의 세계·행동 모델인 DriveWAM을 공개했어요. DriveWAM은 기존 비디오 확산 트랜스포머를 활용하여 영상과 행동을 통합적으로 모델링합니다.
DriveWAM은 장면 이해를 위해 frozen VLM을 활용하여 영상 생성 가이드를 제공하고, 장기적인 예측을 위해 선택적 KV 메모리를 사용합니다.
NAVSIM과 PhysicalAI-Autonomous-Vehicles 벤치마크에서 DriveWAM은 뛰어난 계획 성능을 보였고, 4천 개에서 10만 개로 데이터 규모를 늘려도 성능이 향상되는 것을 확인했습니다.