Pulse · AI 뉴스

교통 영상 질의응답에서 시각 의존성 부족 문제점 분석 및 필터링

arXiv cs.CV · 2026-06-29

연구진은 교통사고 영상 질의응답(VideoQA)에서 모델이 시각 정보 대신 텍스트 단서에 의존하는 '모달리티 붕괴' 현상을 분석했어요. MM-AU 벤치마크에서 동영상 입력을 제거하면 정확도가 오히려 높아지는 현상이 관찰됐어요. 시각 의존성을 측정하는 새로운 진단 도구(Blind Gap, Visual Gain, Shortcut Score)를 개발하여 문제 질문을 필터링했어요.

Blind Gap 지표는 텍스트만으로도 정답을 맞힐 수 있는 비율을 측정하고, Visual Gain 지표는 동영상 추가로 얻는 성능 향상 정도를 나타내요. Shortcut Score는 텍스트만으로의 확신도와 시각적 필요성을 결합하여 모델이 시각 정보에 얼마나 의존하는지 평가해요.

연구 결과, 벤치마크별로 시각적 근거 의존성에 큰 차이가 있으며, 안전이 중요한 VideoQA에서는 높은 정확도뿐 아니라 시각적 근거 기반 평가가 필수적임을 확인했어요.

##VideoQA##시각의존성##모달리티붕괴##벤치마크##필터링

매일 핵심 AI 소식을 한국어로, 빠르게

App Store 에서 Pulse 받기 앱에서 열기