Pulse · AI 뉴스

영영상 기반 사고 이해를 위한 메타데이터 기반 멀티 프롬프트 추론

arXiv cs.AI · 2026-06-10

본 논문은 감시 영상에서 사고 발생 시점, 유형, 위치를 자연어로 파악하는 제로샷 사고 이해 문제를 다룹니다. 사고 이해 과정을 '언제', '무엇', '어디'의 세 단계로 나누는 파이프라인을 제안합니다. 영상과 언어의 유사성을 활용해 사고 발생 시점 전후의 짧은 시간대를 추출하고, 메타데이터 기반 멀티 프롬프트 추론을 통해 사고 유형을 분류합니다.

##사고인식##컴퓨터비전##자연어처리##제로샷
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기