연구진은 기존 주행 VLA가 시각 정보를 충분히 활용하지 못하는 문제를 발견하고, 역학적 방법으로 재설계했어요. 새로운 방법은 미래 시각 장면 예측 목표와 역학적 네트워크를 활용하여 모델이 시각 정보를 더 잘 활용하도록 유도합니다. 0.5B 규모의 모델이 기존 7B~8B 모델 수준의 주행 계획 성능을 달성했어요.
기존 VLA는 미래 시각 정보를 부족하게 사용하여 자율 상태 및 텍스트 명령에 의존하는 경향이 있었어요. 연구진은 이를 해결하기 위해 현재 및 미래 시각 상태를 입력으로 받는 역학적 네트워크를 도입하여 시각 정보 활용을 개선했어요.
새로운 방법은 NAVSIM-v2 및 nuScenes 벤치마크에서 시각적 기반 주행 계획 성능을 향상시켰으며, 특히 회전과 같은 동적 주행 상황에서 효과적이었어요.