Pulse · AI 뉴스

OmniVideo-100K: 구조화된 스크립트와 증거 기반 추론을 위한 오디오·비디오 데이터셋

OmniVideo-100K · 2026-06-13

연구진이 오디오·비디오 질문 응답(QA) 모델의 한계를 극복하기 위해 구조화된 스크립트와 증거 기반 QA 생성 파이프라인을 제안했어요.

새로운 데이터셋 OmniVideo-100K는 비디오를 구조화된 스크립트로 변환하고, 엔티티 목록을 활용해 오디오·비주얼 연관성을 유지하며 일관성을 확보해요.

VITA-1.5, Qwen2.5-Omni-7B, Qwen3-Omni-30B 모델을 OmniVideo-100K로 튜닝했을 때 OmniVideo-Test에서 최대 20.59% 성능 향상을 기록했어요.

Daily-Omni, JointAVBench 벤치마크에서도 최대 12.64% 성능 향상을 보여 모델의 일반화 능력을 입증했어요.

##데이터셋##오디오##비디오##QA
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기