연구진은 CCTV 영상 속 교통 사고 발생 위치와 시간을 정확히 파악하는 새로운 파이프라인을 개발했습니다. 이 방법은 별도 학습 없이 기존 비전-언어 모델(VLM)을 활용하여 사고 유형까지 파악합니다.
두 단계로 구성된 파이프라인은 먼저 1초당 1프레임으로 전체 영상을 분석하여 대략적인 위치 정보를 얻은 후, 5초당 3초 분량의 영상을 다시 분석하여 시간과 위치를 정밀하게 조정합니다.
ACCIDENT@CVPR 2026 벤치마크에서 기존 방법 대비 성능을 크게 향상시켰으며, API 호출 횟수는 최대 3회로 영상 1개당 약 20달러의 비용이 발생합니다.