연구진은 도시 교통 환경의 안전한 추론을 위한 새로운 오픈 소스 시각-언어 데이터셋인 Land Transportation Dataset (LTD)을 발표했어요.
LTD는 다양한 도로 환경과 교통 상황을 담은 11,600개의 고품질 VQA 페어를 포함하며, 미세한 객체 식별, 다중 이미지 카메라 선택, 위험 분석 등 세 가지 주요 작업을 통합해요.
UniVLT라는 교통 기반 모델을 제안하여 LTD를 기반으로 학습시키고, 기존 모델의 한계를 극복하며 다양한 분야에서 최고 성능을 달성했어요.