연구진은 교통 장면 이해를 위한 제어 가능한 생성 파이프라인과 벤치마크인 OmniTraffic을 공개했어요.
OmniTraffic은 12개의 실제 교차로를 3D 환경으로 재구성하고 두 국가의 감시 영상을 활용하여 자연 조건과 제어 조건 모두 평가할 수 있도록 설계됐어요.
11개의 최첨단 MLLM 평가 결과, 교통 장면 이해 모델이 탑지구조 및 시공간 추론에서 큰 어려움을 겪는다는 사실이 확인됐고, 시뮬레이션 데이터로 MLLM을 미세 조정하면 실제 교통 장면 성능을 향상시킬 수 있어요.