Pulse · AI 뉴스

VL-DPO: 비전-언어 기반 인간 선호도 맞춤형 자율주행

VL-DPO · 2026-05-20

연구진은 자율주행 데이터 증가에 따라 VL-DPO(Vision-Language-Guided Direct Preference Optimization)라는 새로운 프레임워크를 제시했어요. VL-DPO는 비전-언어 모델(VLM)을 활용해 인간의 선호도를 반영한 자율주행 차량의 움직임 예측 모델을 만들어요.

VLM은 모델의 예측 경로를 분석하여 인간 선호도에 따른 쌍을 자동으로 생성하고, 이를 통해 모델을 직접 선호도 최적화(DPO) 방식으로 미세 조정해요. Waymo Open End-to-End Driving Dataset(WOD-E2E)을 사용해 실험을 진행했어요.

실험 결과, VL-DPO는 기존 모델 대비 rater feedback score(RFS)는 11.94% 향상, average displacement error(ADE)는 10.01% 감소하는 성능을 보여 인간 선호도를 잘 반영하는 프록시임을 확인했어요.

##자율주행##비전언어모델##인공지능##DPO##Waymo
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기