연구진은 기존 데이터셋의 부족한 규모와 다양성을 극복하기 위해 오픈 월드 비디오 임베딩을 위한 대규모 데이터셋 OmniVTG를 새롭게 구축했어요. OmniVTG는 MLLM의 이해 능력을 활용하여 예측 후 스스로 반성하고 예측을 개선하는 자기 교정 Chain-of-Thought (CoT) 학습 패러다임을 적용했어요. 실험 결과, OmniVTG는 오픈 월드 임베딩에서 뛰어난 성능을 보였으며, 기존 벤치마크에서도 최고 성능을 달성했어요.