연구진이 오디오·비디오 질문 응답(QA) 모델의 한계를 극복하기 위해 구조화된 스크립트와 증거 기반 QA 생성 파이프라인을 제안했어요.
새로운 데이터셋 OmniVideo-100K는 비디오를 구조화된 스크립트로 변환하고, 엔티티 목록을 활용해 오디오·비주얼 연관성을 유지하며 일관성을 확보해요.
VITA-1.5, Qwen2.5-Omni-7B, Qwen3-Omni-30B 모델을 OmniVideo-100K로 튜닝했을 때 OmniVideo-Test에서 최대 20.59% 성능 향상을 기록했어요.
Daily-Omni, JointAVBench 벤치마크에서도 최대 12.64% 성능 향상을 보여 모델의 일반화 능력을 입증했어요.