연구진이 자율 주행 Vision-Language-Action(VLA) 모델 'Fast-dDrive'를 개발했어요. 기존 방식의 한계를 극복하고 속도와 정확도를 모두 높였습니다.
Fast-dDrive는 블록 디퓨전 방식을 사용하여 안전을 최우선으로 고려한 계획을 수립하고, JSON 형태의 출력을 활용하여 효율성을 높였어요.
WOD-E2E 테스트 세트에서 SOTA 수준의 성능을 달성했으며, nuScenes에서는 평균 L2 오차를 0.32m로 22% 개선했습니다.