Pulse · AI 뉴스

OmniVideo-100K: 구조화된 스크립트와 증거 기반 추론을 위한 오디오·비디오 데이터셋

OmniVideo-100K · 2026-06-12

연구진이 오디오·비디오 질문 답변(QA) 모델의 한계를 극복하기 위해 새로운 데이터셋 OmniVideo-100K와 테스트셋 OmniVideo-Test를 공개했어요.

OmniVideo-100K는 Entity-Anchored Video Scripting과 Clue-Guided QA Generation이라는 자동 데이터 엔진을 통해 제작되었으며, 영상 스크립트를 구조화하고 중요한 단서를 활용해 질문과 답변을 생성해요.

VITA-1.5, Qwen2.5-Omni-7B, Qwen3-Omni-30B 모델을 OmniVideo-100K로 튜닝했을 때, OmniVideo-Test와 기존 벤치마크에서 최대 20.59%의 성능 향상을 기록했어요.

##데이터셋##오디오##비디오##QA##VITA
매일 핵심 AI 소식을 한국어로, 빠르게
App Store 에서 Pulse 받기 앱에서 열기