연구진이 오디오·비디오 질문 답변(QA) 모델의 한계를 극복하기 위해 새로운 데이터셋 OmniVideo-100K와 테스트셋 OmniVideo-Test를 공개했어요.
OmniVideo-100K는 Entity-Anchored Video Scripting과 Clue-Guided QA Generation이라는 자동 데이터 엔진을 통해 제작되었으며, 영상 스크립트를 구조화하고 중요한 단서를 활용해 질문과 답변을 생성해요.
VITA-1.5, Qwen2.5-Omni-7B, Qwen3-Omni-30B 모델을 OmniVideo-100K로 튜닝했을 때, OmniVideo-Test와 기존 벤치마크에서 최대 20.59%의 성능 향상을 기록했어요.