연구진이 자율 주행을 위한 비전-언어-기하-액션 모델 VLGA를 공개했어요. VLGA는 주변 3D 환경을 정밀하게 재구성하도록 설계됐어요.
기존 VLA 모델의 한계를 극복하기 위해 LiDAR 데이터를 활용한 점 지도 회귀 손실을 적용하여 기하 정보를 통합했어요.
nuScenes 및 Bench2Drive 데이터셋에서 VLGA는 기존 VLA 모델보다 뛰어난 성능을 보였으며, 특히 nuScenes에서 L2 평균 0.50m, 3초 충돌률 0.18%로 최고 기록을 달성했어요.